您的位置:首頁>科技>正文

特徵選擇演算法在微博業務應用中的演進歷程

值得注意的是, 深度學習作為人工智慧和機器學習的分支, 尤其得到更多的重視與應用。 深度學習與眾不同的特性之一, 在於其能夠對原始特徵進行更高層次的抽象和提取, 進而生成區分度更高、相關性更好的特徵集合, 因此深度學習演算法還經常被叫作“自動特徵提取演算法”。 由此可見, 無論是傳統的基礎演算法, 還是時下最流行的深度學習, 特徵的選擇與提取, 對於模型最終的預測性能至關重要。 另一方面, 優選的特徵集合相比原始特徵集合, 只需更少的資料量即可得到同樣性能的模型,

從系統的角度看, 特徵選擇對機器學習執行性能的優化具有重大意義。

人工選擇相關性降維法

傳統的特徵選擇方法從方式上大致分為三大類, 即相關性、包裹法和嵌入法。 剛剛提到的根據特徵與標籤之間的相關性對特徵進行選取的方法就是相關性法。 在對包裹法和嵌入法進行嘗試之前, 為了能夠詳盡特徵選擇的方法, 我們嘗試利用降維的方式進行特徵選擇。 從嚴格的意義講, 降維法不能叫作特徵“選擇”/“篩選”方法, 因為降維法(如PCA、SVD)原理是將高維度特徵壓縮到低維空間中, 壓縮的過程中造成了資訊的丟失和損失, 卻在低維空間保留(生產)了新的區分度更高的特徵集合。 所以降維法是對原始特徵集合進行了變換和扭曲,

生成了新的特徵空間和集合。 降維法的優點顯而易見, 即無需使用者干預, 自動對特徵空間進行變換和映射, 生產高區分度的特徵集合;缺點是其在低維空間生產的特徵不具有可解釋性, 新的特徵集合對業務人員和演算法人員來說是不可讀的, 無業務意義的。 這個特性與後文提及的通過DNN來提取特徵有相似之處。

模型倒推法GBDT特徵選擇

前文提到深度學習又叫“自動特徵提取演算法”, 天生自帶特徵提取屬性。 但在介紹“自動特徵提取演算法”之前, 我們有必要認識一下自動特徵提取的前輩:GBDT(Gradient Boosting Decision Trees)。 GBDT通過不斷地擬合上一棵決策樹的殘差來不斷逼近目標值, 決策樹的資訊增益演算法結合GBDT特別的組合結構,

造就了其葉子節點天生的高區分度特性。 通過將原始特徵導入GBDT進行訓練, 再將得到的模型對原始資料進行預測, 就得到了GBDT轉換/映射後的葉子節點特徵集合, 再將這個葉子節點組成的特徵集合導入其他演算法(如LR)進行訓練。 GBDT的優點是特徵自動選擇, 區分度高;缺點與PCA和後面的深度學習類似, 即新產生的特徵不具備可解釋性。

深度學習

深度學習演算法由神經網路衍生而來, 主要是指具有不同網路結構(如用於圖像特徵提取的CNN卷積神經網路結構、用於時序相關的RNN迴圈神經網路, 以及由全連接組成的DNN深度神經網路等)的深層神經網路。 神經網路的每一層神經元都會根據上一層的輸入做非線性啟動, 並將其輸出作為下一層神經網路的輸入,

每一層神經元都可以理解為某一個層次的特徵抽象, 每一層網路都可以形成一個新的特徵集合, 這種天然的特性為我們進行特徵選擇提供了新的思路。 通過構建深層神經網路, 並將最後一個隱層的神經元集合作為特徵抽象, 後續可以接入各種分類演算法, 如LR、決策樹、樸素貝葉斯等進行預測。

圖2 特徵選擇效果對比

圖2對比資料來自同一份資料集(特徵選取與訓練分開, 各百萬條樣本)與同一組特徵集合(118個原始特徵), 採用不同的特徵選擇方法對特徵進行過濾、選擇、提取。 橘色曲線表示對原始特徵進行特徵選擇後, 不同特徵選擇方法保留的有效特徵個數, 如用GBDT進行特徵選擇後, 僅僅留下44個有效特徵。 保留特徵的個數主要取決於演算法本身與業務人員的選擇。 如對於方差法、卡方檢驗等相關性排序法, 需要業務人員和演算法人員指定保留的特徵個數;而像L1正則與GBDT, 則完全由演算法本身根據資料分佈特點, 來決定原始特徵的去留。 最後的DNN即深度學習,也是根據經驗人為指定最後一層隱層的特徵個數。藍色曲線表示採用不同特徵選擇方法後,用另一份單獨的資料集進行訓練後的模型(LR模型)預測性能,我們這裡用業界應用廣泛的AUC(Area Under Curve)來衡量模型的有效性。方差法和卡方檢驗完全取決於特徵本身及其與標籤的相關性,因此提升幅度有限。正則化與GBDT等採用模型倒推的方法進行特徵選取,因此預測性能有顯著提升。深度學習能夠在多個層次對特徵進行抽象,最後一層隱層代表了特徵的最高層次抽象,因此區分度最好。

作者簡介:

本文為《程式師》原創文章,未經允許不得轉載,更多精彩文章請訂閱《程式師》( 責編/郭芮 )

最後的DNN即深度學習,也是根據經驗人為指定最後一層隱層的特徵個數。藍色曲線表示採用不同特徵選擇方法後,用另一份單獨的資料集進行訓練後的模型(LR模型)預測性能,我們這裡用業界應用廣泛的AUC(Area Under Curve)來衡量模型的有效性。方差法和卡方檢驗完全取決於特徵本身及其與標籤的相關性,因此提升幅度有限。正則化與GBDT等採用模型倒推的方法進行特徵選取,因此預測性能有顯著提升。深度學習能夠在多個層次對特徵進行抽象,最後一層隱層代表了特徵的最高層次抽象,因此區分度最好。

作者簡介:

本文為《程式師》原創文章,未經允許不得轉載,更多精彩文章請訂閱《程式師》( 責編/郭芮 )

Next Article
喜欢就按个赞吧!!!
点击关闭提示