伯克利用120萬美元設備24分鐘訓練ImageNet，刷新Facebook成績

李林編譯整理

量子位元報導 | 公眾號 QbitAI

最近，加州大學伯克利分校的研究人員用120萬美元的設備， 24分鐘完成了ImageNet的訓練。

在最近公佈的論文ImageNet Training in 24 Minutes中，

伯克利的Yang You、James Demmel、Kurt Keutzer、TACC（德克薩斯高級計算中心）的Zhao Zhang、和加州大學大衛斯分校的Cho-Jui Hsieh展示了他們的最新成果。

他們在論文中說，目前快速訓練深度神經網路（DNN）所遇到的瓶頸，主要是批次（batch）過小。比如說常用的批次大小是512，這就很難充分利用很多處理器的性能。

但是，如果將批次增大，通常會導致結果準確率明顯降低。

而伯克利的研究人員在這篇論文中，使用了You, Gitman, Ginsburg, 2017提出的LARS（Layer-wise Adaptive Rate Scaling）演算法，將批次大幅度增大，達到比如說32k的大小。

通過這種方法，他們只用了24分鐘，就在ImageNet上完成了100個epoch的AlexNet訓練，完成90個epoch的ResNet-50訓練則用來1小時。

這個成績，和Facebook之前（Goyal et al 2017）達到的一樣，但是，伯克利團隊的設備預算只有120萬美元，而Facebook的設備花了410萬美元。

附上文提到的幾篇論文地址：

ImageNet Training in 24 Minutes

arxiv.org/abs/1709.05011

提出LARS的You, Gitman, Ginsburg, 2017

https://arxiv.org/abs/1708.03888

Facebook的1小時訓練ImageNet

https://arxiv.org/abs/1706.02677

這篇論文昨天在Twitter上引發了一輪關注和討論，不少人吐槽“只有120萬美元”是怎樣一種炫富。

不過，穀歌大腦的David Ha解釋說， 120萬美元看起來很多，但是和昂貴的科學家、工程師團隊比起來，對企業來說簡直太便宜了。

這個ImageNet Training in 24 Minutes的論文標題，也招來了不少質疑。 Twitter網友們紛紛認為它雖然說不上錯，也確實是有點標題黨。

特斯拉AI總監Andrej Karpathy說，直接在標題上寫個24分鐘過於簡略了，作者們應該明確指出24分鐘是AlexNet的時間，而不是ResNet-50，他們訓練ResNet-50並沒有比Facebook更快。

David Ha緊接著補刀說這種做法有點dishonest。

論文第一作者Yang You在twitter上回應了這些質疑。

他說，如果論文中有錯誤，他們在更新下一版時會作出修改， 120萬美元，是按英特爾、英偉達設備的官方價格算出來的，這兩家都是他們實驗室的贊助商。

而對關於論文標題直接寫了個24分鐘，沒有提及這是AlexNet的訓練結果一事， Yang You回應說，其實AlexNet比ResNet更難規模化， comm/comp比值太高了。在這項工作之前，人們最高只能把AlexNet的批次大小擴大到1024。

最後，附David Ha為此論文所作的詩：

I wanna be a billionaire so frickn’ bad

Buy all the GPUs I never had

I wanna be on cover of Forbes magazine

Smiling next Oprah and the Queen

— 完 —

誠摯招聘