從上面的資料缺失視覺化圖中可以看出, 部分特徵的資料缺失十分嚴重, 下面我們來對特徵的缺失數量進行統計。 小編推薦大家加一下這個群:103456743這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程式師大神給大家熱心解答各種問題!很快滿員了。 欲進從速哦!各種PDF等你來下載!全部都是免費的哦!只為幫助大家快速入門, 所以小編在群裡等你們過來一起交流學習呢!
觀察目標變數y的分佈和取對數後的分佈看, 取完對數後更傾向於符合正太分佈, 故我們對y進行對數轉化。
y = np.log1p(y)#+1的目的是防止對數轉化後的值無意義3、合併資料 缺失處理
哇!好意外啊,這兩個模型的結果表現都不錯,但是隨機森林的結果似乎更好,下面來看看學習曲線情況。
四、接下來分別對兩個基準模型進行參數調優,獲得使得均方誤差最小的參數,返回到訓練集進行訓練;
五、採用並行模型融合的方式,計算兩個模型預測結果的均值作為測試集的預測結果。
原文;
如有侵權請聯繫小編刪除哦!
哇!好意外啊,這兩個模型的結果表現都不錯,但是隨機森林的結果似乎更好,下面來看看學習曲線情況。
四、接下來分別對兩個基準模型進行參數調優,獲得使得均方誤差最小的參數,返回到訓練集進行訓練;
五、採用並行模型融合的方式,計算兩個模型預測結果的均值作為測試集的預測結果。
原文;
如有侵權請聯繫小編刪除哦!