在接下來的幾章,
作者主要給大家講一講決策樹分類演算法,
包括ID3演算法,
C4.5演算法和CART演算法。
為了感謝大家的支援, 其中有一些內容都是作者在外面做培訓的內容, 希望對大家的理解有所幫助。
決策樹分類模型簡介決策樹演算法是一種歸納分類演算法, 它通過對訓練集的學習, 挖掘出有用的規則, 用於對新集進行預測
決策樹演算法是一種非參數學習演算法。 對每個輸入使用由該區域的訓練資料計算得到的對應的局部模型
決策樹歸納的基本演算法是貪婪演算法, 自頂向下以遞迴的方式構造決策樹
在其生成過程中, 分割時屬性選擇度量是關鍵。 通過屬性選擇度量, 選擇出最好的將樣本分類的屬性
決策樹演算法的工作過程
決策樹的結構決策樹演算法以樹狀結構表示資料分類的結果。 每個決策點實現一個具有離散輸出的測試函數,
決策樹的結構
決策樹分類的思想類似於找物件。 現想像一個女孩的母親要給這個女孩介紹男朋友, 於是有了下面的對話:
女兒:多大年紀了? (年齡);母親:26。
女兒:長的帥不帥? (長相);母親:挺帥的。
女兒:收入高不? (收入情況);母親:不算很高,
女兒:是公務員不? (是否公務員);母親:是, 在稅務局上班呢。
======>>>女兒:那好, 我去見見。
找物件的決策樹分類模型
由決策樹的根結點到葉結點的每一條路徑構建一條規則
路徑上內部結點的特徵對應著規則的條件, 而葉結點的類對應著規則的結論
If-then規則集合的一重要性質:互斥並且完備
決策樹分類模型學習學習目標:根據給定的訓練資料集構建一個決策樹模型, 使它能夠對實例進行正確的分類
一個與訓練資料矛盾較小的決策樹, 同時具有很好的泛化能力
決策樹學習本質:從訓練資料集中歸納出一組分類規則
決策樹學習的損失函數:通常是正則化的極大似然函數。 但是基於損失函數找到全域最優決策樹是NP-完全問題
現實中決策樹學習通常採用啟發式方法, 即局部最優
具體做法:每次選擇Feature時, 都挑選擇當前條件下最優的那個Feature作為劃分規則, 即局部最優的Feature
停止條件:一個節點上的資料都是屬於同一個類別或沒有屬性可以再用於對資料進行分割,
特徵選擇在於選取對訓練資料具有局部最優分類能力的特徵
選擇特徵的準則不同形成不同的分類演算法
資訊增益—ID3演算法
資訊增益比—C4.5演算法
基尼指數—CART演算法
決策樹的剪枝決策樹生成演算法對於訓練集是很準確的, 但是會造成過擬合, 所以需要通過剪枝來提高泛化能力
剪枝思路:就是在決策樹對訓練資料的預測誤差和樹複雜度之間找到一個權衡