引用次數最多的深度學習論文出自誰手？（最優化/訓練技巧篇）

雷鋒網AI科技評論：還記得前段時間雷鋒網AI科技評論編譯的深度學習論文推薦列表嗎？雷鋒網編譯了@Terryum在GitHub上整理的論文推薦列表，介紹了關於理解/泛化/遷移的七篇論文。在今天這一部分，雷鋒網將編譯推薦列表中關於最優化/訓練技巧的六篇論文，並增加了每篇論文的概要。

2015年3月，來自Google的Sergey Ioffe 和Christian Szegedy兩位技術專家合著了《Batch normalization: Accelerating deep network training by reducing internal covariate shift》, 這篇論文提出了深度神經網路訓練過程的一種重要思想 — 批標準化（Batch Normalization）。在深度神經網路的訓練過程中，每一層的輸入分佈會隨前一層的參數變化而變化，這要求我們必須降低學習率並對參數很好地初始化，

使得訓練過程變慢，論文中稱之為internal covariate shift，而批標準化可以很好地解決這個問題。通過mini batch對相應的激勵項（activation）做標準化操作，把標準化當做模型結構的一部分。批標準化的方法使得我們在訓練過程可以使用更高的學習率，也不必過分在意參數初始化。另外，它還可以消除或者減少DropOut的使用。論文作者在表現優異的圖像分類模型上使用了批標準化，結果表明，在取得同樣準確率的情況下，使用了批標準化的模型使用的訓練步驟相對原模型減少了14倍。另外，作者使用批標準化過的網路模型集合，改進了ImageNet分類問題中公開發表的最好成績的模型， top-5的validation error低達4.9%， test error 低達4.8%。

[1]Batch normalization: Accelerating deep network training by reducing internal covariate shift (2015), S. Loffe and C. Szegedy [pdf]

來自微軟研究院的孫劍，何愷明、張祥雨、任少卿在2015年2月發表了《Delving deep into rectifiers: Surpassing human-level performance on imagenet classification 》，

首次宣佈其開發的電腦視覺系統已經超越了人類視覺的識別能力。這篇論文從兩個方面解釋了用於圖像分類的修正神經網路（rectifier neural networks）。

第一，文中提出了一種新的ReLU函數，稱為參數化修正線性單元（Parametric Rectified Linear Unit） (PReLU) ，用於泛化傳統的修正單元。這種激勵函數自我調整學習修正的參數，提高了模型的擬合程度，而增加的計算量和過擬合風險幾乎可以忽略不計。

第二，文章提出了一種強大的初始化方法，使訓練模型可以適用於非線性系統，解決了訓練深度修正網路遇到的收斂問題。

依託於這兩點，這篇論文的團隊在ImageNet 2012分類資料集中錯誤率低達4.94%，相對於ILSVRC2014的冠軍水準提升了26%的準確度。

[2]Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015), K. He et al.

對於參數特別多的深度神經網路來說，過擬合是影響模型性能的主要問題。

為了防止過擬合，我們通常會使用多個模型組合成的集合模型進行訓練和測試，這使得模型在測試時使用起來極慢。來自多倫多大學電腦學院的Nitish Srivastava， Geoffrey Hinton， Alex Krizhevsky， Ilya Sutskever和Ruslan Salakhutdinov在論文《Dropout: A simple way to prevent neural networks from overfitting 》中提出了Dropout的方法來解決過擬合問題， Dropout的核心概念就是在訓練過程中隨機“丟棄”神經網路單元，在神經網路中使用dropout相當於從原有的神經網路中取樣一個“瘦”一點的網路，這個網路由在“丟棄”過程中存活下來的單元組成。 Dropout方法顯著地降低了過擬合的風險，提高了如視覺，語音辨識，文本分類和生物學計算等有監督學習任務的模型性能，並在很多基準資料集中取得了優異成績。

[3]Dropout: A simple way to prevent neural networks from overfitting (2014), N. Srivastava et al. [pdf]

由Diederik P. Kingma 和Jimmy Lei Ba合著的《Adam: A method for stochastic optimization 》介紹了一種有效的隨機優化方法 —— ADAM演算法，

這種演算法通過對低階的自我調整矩估計，來優化基於一階梯度的隨機目標函數。這種方法實現起來簡單明瞭，計算高效，對記憶體需求小，適用於資料或者參數很多的任務。 ADAM演算法結合了AdaGrad和RMSProp演算法的優點，既有AdaGrad處理稀疏梯度的能力，又有RMSProp處理不穩定目標的能力。作者還討論了此演算法在凸優化問題中的收斂情況，在非凸優化問題上也表現良好。經驗結果表明， ADAM演算法在實際運用中表現良好，在一眾隨機優化演算法中較為出色。

[4]Adam: A method for stochastic optimization (2014), D. Kingma and J. Ba [pdf]

來自多倫多大學的G. E. Hinton等合著了《Improving neural networks by preventing co-adaptation of feature detectors 》，提出了通過阻止訓練資料中的共適應現象來解決過擬合問題。當訓練使用的資料集很小時，神經網路模型在測試資料集上的表現就會很糟糕，這是因為過度訓練導致的過擬合的現象。

這種現象可以通過隨機“丟棄”（Dropout）特徵探測器來改善，阻止特徵探測器的共適應（co-adaptations）現象發生。共適應是指一個特徵探測器的正常工作，依賴於另外幾個特徵探測器的正常工作。 Dropout在訓練過程中，對每一個訓練樣本，每一個隱藏層單元有50%的概率被隨機“丟棄”，所以一個隱藏層單元沒有辦法再依賴於其他的隱藏層單元工作，這種隨機的Dropout提升了神經網路模型在很多語音和物體識別基準任務的性能。

[5]Improving neural networks by preventing co-adaptation of feature detectors (2012), G. Hinton et al. [pdf]

在進行神經網路超參數優化時，網格搜索和人工調參是常見的兩種策略。 James Bergstra和Yoshua Bengio在合著的論文《Random Search for Hyper-Parameter Optimization》中提出了另一種超參數優化方法——隨機搜索，並從理論上和經驗上證明了，在超參數優化過程中，隨機試驗比網格搜索更高效。作者對比了很多使用網格搜索和人工調參配置神經網路和深度信念網路的例子。結果表明，在相同領域，相比網格搜索，使用隨機搜索配置超參數的網路可以找到相同或者更好的模型，只是在計算量上有小幅增加。此外，在相同的32維配置空間中，完全使用隨機搜索配置的深度信念網路，與網格搜索和人工調參配置的深度信念網路相比，在1/7的資料集上表現出了更優異的性能。論文作者預測，由於外界對大型層次模型與日俱增的關注，超參數優化問題也會得到更多的關注，而隨機搜索會成為在自我調整超參數優化演算法發展過程中的一個基準。

[6]Random search for hyper-parameter optimization (2012) J. Bergstra and Y. Bengio [pdf]

雷鋒網所編譯的本文只介紹了列表中屬於最優化/訓練技巧領域的六篇引用次數最多的論文，對於其他類別的論文，請參考原文連結：https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models

作者對比了很多使用網格搜索和人工調參配置神經網路和深度信念網路的例子。結果表明，在相同領域，相比網格搜索，使用隨機搜索配置超參數的網路可以找到相同或者更好的模型，只是在計算量上有小幅增加。此外，在相同的32維配置空間中，完全使用隨機搜索配置的深度信念網路，與網格搜索和人工調參配置的深度信念網路相比，在1/7的資料集上表現出了更優異的性能。論文作者預測，由於外界對大型層次模型與日俱增的關注，超參數優化問題也會得到更多的關注，而隨機搜索會成為在自我調整超參數優化演算法發展過程中的一個基準。

[6]Random search for hyper-parameter optimization (2012) J. Bergstra and Y. Bengio [pdf]