雷鋒網AI科技評論:還記得前段時間雷鋒網AI科技評論編譯的深度學習論文推薦列表嗎?雷鋒網編譯了@Terryum在GitHub上整理的論文推薦列表, 介紹了關於理解/泛化/遷移的七篇論文。 在今天這一部分, 雷鋒網將編譯推薦列表中關於最優化/訓練技巧的六篇論文, 並增加了每篇論文的概要。
2015年3月, 來自Google的Sergey Ioffe 和Christian Szegedy兩位技術專家合著了《Batch normalization: Accelerating deep network training by reducing internal covariate shift》, 這篇論文提出了深度神經網路訓練過程的一種重要思想 — 批標準化(Batch Normalization)。 在深度神經網路的訓練過程中, 每一層的輸入分佈會隨前一層的參數變化而變化, 這要求我們必須降低學習率並對參數很好地初始化,
[1]Batch normalization: Accelerating deep network training by reducing internal covariate shift (2015), S. Loffe and C. Szegedy [pdf]
來自微軟研究院的孫劍, 何愷明、張祥雨、任少卿在2015年2月發表了《Delving deep into rectifiers: Surpassing human-level performance on imagenet classification 》,
第一, 文中提出了一種新的ReLU函數, 稱為參數化修正線性單元(Parametric Rectified Linear Unit) (PReLU) , 用於泛化傳統的修正單元。 這種激勵函數自我調整學習修正的參數, 提高了模型的擬合程度, 而增加的計算量和過擬合風險幾乎可以忽略不計。
第二, 文章提出了一種強大的初始化方法, 使訓練模型可以適用於非線性系統, 解決了訓練深度修正網路遇到的收斂問題。
依託於這兩點, 這篇論文的團隊在ImageNet 2012分類資料集中錯誤率低達4.94%, 相對於ILSVRC2014的冠軍水準提升了26%的準確度。
[2]Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015), K. He et al.
對於參數特別多的深度神經網路來說, 過擬合是影響模型性能的主要問題。
[3]Dropout: A simple way to prevent neural networks from overfitting (2014), N. Srivastava et al. [pdf]
由Diederik P. Kingma 和Jimmy Lei Ba合著的《Adam: A method for stochastic optimization 》介紹了一種有效的隨機優化方法 —— ADAM演算法,
[4]Adam: A method for stochastic optimization (2014), D. Kingma and J. Ba [pdf]
來自多倫多大學的G. E. Hinton等合著了《Improving neural networks by preventing co-adaptation of feature detectors 》, 提出了通過阻止訓練資料中的共適應現象來解決過擬合問題。 當訓練使用的資料集很小時, 神經網路模型在測試資料集上的表現就會很糟糕, 這是因為過度訓練導致的過擬合的現象。
[5]Improving neural networks by preventing co-adaptation of feature detectors (2012), G. Hinton et al. [pdf]
在進行神經網路超參數優化時, 網格搜索和人工調參是常見的兩種策略。 James Bergstra和Yoshua Bengio在合著的論文《Random Search for Hyper-Parameter Optimization》中提出了另一種超參數優化方法——隨機搜索, 並從理論上和經驗上證明了, 在超參數優化過程中, 隨機試驗比網格搜索更高效。 作者對比了很多使用網格搜索和人工調參配置神經網路和深度信念網路的例子。結果表明,在相同領域,相比網格搜索,使用隨機搜索配置超參數的網路可以找到相同或者更好的模型,只是在計算量上有小幅增加。此外,在相同的32維配置空間中,完全使用隨機搜索配置的深度信念網路,與網格搜索和人工調參配置的深度信念網路相比,在1/7的資料集上表現出了更優異的性能。論文作者預測,由於外界對大型層次模型與日俱增的關注,超參數優化問題也會得到更多的關注,而隨機搜索會成為在自我調整超參數優化演算法發展過程中的一個基準。
[6]Random search for hyper-parameter optimization (2012) J. Bergstra and Y. Bengio [pdf]
雷鋒網所編譯的本文只介紹了列表中屬於最優化/訓練技巧領域的六篇引用次數最多的論文,對於其他類別的論文,請參考原文連結:https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models
作者對比了很多使用網格搜索和人工調參配置神經網路和深度信念網路的例子。結果表明,在相同領域,相比網格搜索,使用隨機搜索配置超參數的網路可以找到相同或者更好的模型,只是在計算量上有小幅增加。此外,在相同的32維配置空間中,完全使用隨機搜索配置的深度信念網路,與網格搜索和人工調參配置的深度信念網路相比,在1/7的資料集上表現出了更優異的性能。論文作者預測,由於外界對大型層次模型與日俱增的關注,超參數優化問題也會得到更多的關注,而隨機搜索會成為在自我調整超參數優化演算法發展過程中的一個基準。[6]Random search for hyper-parameter optimization (2012) J. Bergstra and Y. Bengio [pdf]
雷鋒網所編譯的本文只介紹了列表中屬於最優化/訓練技巧領域的六篇引用次數最多的論文,對於其他類別的論文,請參考原文連結:https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models