您的位置:首頁>科技>正文

「乾貨分享」四句話選擇SVM模型參數

支持向量機雖然有著理論上的優勢, 然而參數的選擇對預測精度的影響很大。

採用RBF回歸支援向量機建立時間序列預測模型時, 需要首先確定嵌入維數m值、不敏感參數ε值、懲罰因數C以及徑向基核的寬度參數σ這四個設計參數。 通常這幾個參數的選取都是通過反復的試驗, 人為地選擇出令人滿意的解, 這需要人的經驗做指導, 並且需要付出較高的時間代價。

最優分類超平面

1. 嵌入維數m

關係到能否重構非線性系統的相空間, 對預測精度有重要影響, 隱含著轉換後矩陣蘊涵的知識量。

2. 懲罰因數C

其取值範圍一般為1~1000000。 懲罰因數C用於控制模型複雜度和訓練誤差的折中, 以便使模型有較好的推廣能力。 懲罰因數C決定了對超出誤差ε的學習樣本的懲罰程度, 是支持向量機擬合程度和推廣能力的平衡參數。 如果C值取得太大, 對樣本資料中超出ε不敏感帶的懲罰就過大,

則問題更傾向於經驗風險最小化, 而忽略了對結構複雜程度的考慮, 使對訓練資料的擬合程度過高, 泛化能力變差;反之則過多地考慮了問題的複雜程度, 而忽略了經驗資料的作用, 使訓練誤差變大, 致使系統的泛化能力也變差。 尋找一個合適的C值, 才能使得SVM推廣性能最好。

3. 不敏感參數ε

其取值範圍一般為0.0001~0.1。 不敏感損失函數的參數ε決定ε不敏感帶的寬度, 從而控制支持向量的個數和泛化能力。 不敏感參數ε表明了實際物件對逼近函數在樣本資料點上的誤差期望, 決定了支持向量機中支援向量的數目, ε選得過大, 則支援向量的數目過少, 模型較為簡單, 對樣本的擬合精度過低;反之則支援向量的數目過多,

對樣本的擬合精度過高, 有可能導致過擬合而影響推廣能力。

4. RBF參數σ

其取值範圍一般為0.1~3.8。 徑向基核函數參數σ值, 主要影響樣本資料在高維特徵空間中分佈的複雜程度。 σ反映了訓練樣本資料的分佈或範圍特性, 它確定了局部鄰域的寬度, 較大的σ意味較低的方差。 只有σ選擇合適, 才能將原空間的非線性逼近問題映射到一個合理的高維特徵空間, 太小或太大都會使模型性能變差。

茫茫頭條中, 你我有緣相遇, 您的關注, 是對我最大的肯定。 關注一辰君, 獲取更多有趣有用的知識。

Next Article
喜欢就按个赞吧!!!
点击关闭提示