「乾貨分享」四句話選擇SVM模型參數

支持向量機雖然有著理論上的優勢，然而參數的選擇對預測精度的影響很大。

採用RBF回歸支援向量機建立時間序列預測模型時，需要首先確定嵌入維數m值、不敏感參數ε值、懲罰因數C以及徑向基核的寬度參數σ這四個設計參數。通常這幾個參數的選取都是通過反復的試驗，人為地選擇出令人滿意的解，這需要人的經驗做指導，並且需要付出較高的時間代價。

最優分類超平面

1. 嵌入維數m

關係到能否重構非線性系統的相空間，對預測精度有重要影響，隱含著轉換後矩陣蘊涵的知識量。

2. 懲罰因數C

其取值範圍一般為1~1000000。懲罰因數C用於控制模型複雜度和訓練誤差的折中，以便使模型有較好的推廣能力。懲罰因數C決定了對超出誤差ε的學習樣本的懲罰程度，是支持向量機擬合程度和推廣能力的平衡參數。如果C值取得太大，對樣本資料中超出ε不敏感帶的懲罰就過大，

則問題更傾向於經驗風險最小化，而忽略了對結構複雜程度的考慮，使對訓練資料的擬合程度過高，泛化能力變差；反之則過多地考慮了問題的複雜程度，而忽略了經驗資料的作用，使訓練誤差變大，致使系統的泛化能力也變差。尋找一個合適的C值，才能使得SVM推廣性能最好。

3. 不敏感參數ε

其取值範圍一般為0.0001~0.1。不敏感損失函數的參數ε決定ε不敏感帶的寬度，從而控制支持向量的個數和泛化能力。不敏感參數ε表明了實際物件對逼近函數在樣本資料點上的誤差期望，決定了支持向量機中支援向量的數目， ε選得過大，則支援向量的數目過少，模型較為簡單，對樣本的擬合精度過低；反之則支援向量的數目過多，

對樣本的擬合精度過高，有可能導致過擬合而影響推廣能力。

4. RBF參數σ

其取值範圍一般為0.1~3.8。徑向基核函數參數σ值，主要影響樣本資料在高維特徵空間中分佈的複雜程度。 σ反映了訓練樣本資料的分佈或範圍特性，它確定了局部鄰域的寬度，較大的σ意味較低的方差。只有σ選擇合適，才能將原空間的非線性逼近問題映射到一個合理的高維特徵空間，太小或太大都會使模型性能變差。

茫茫頭條中，你我有緣相遇，您的關注，是對我最大的肯定。關注一辰君，獲取更多有趣有用的知識。