李林 編譯整理
量子位元 報導 | 公眾號 QbitAI
最近, 加州大學伯克利分校的研究人員用120萬美元的設備, 24分鐘完成了ImageNet的訓練。
在最近公佈的論文ImageNet Training in 24 Minutes中,
他們在論文中說, 目前快速訓練深度神經網路(DNN)所遇到的瓶頸, 主要是批次(batch)過小。 比如說常用的批次大小是512, 這就很難充分利用很多處理器的性能。
但是, 如果將批次增大, 通常會導致結果準確率明顯降低。
而伯克利的研究人員在這篇論文中, 使用了You, Gitman, Ginsburg, 2017提出的LARS(Layer-wise Adaptive Rate Scaling)演算法, 將批次大幅度增大, 達到比如說32k的大小。
通過這種方法, 他們只用了24分鐘, 就在ImageNet上完成了100個epoch的AlexNet訓練, 完成90個epoch的ResNet-50訓練則用來1小時。
這個成績, 和Facebook之前(Goyal et al 2017)達到的一樣, 但是, 伯克利團隊的設備預算只有120萬美元, 而Facebook的設備花了410萬美元。
附上文提到的幾篇論文地址:
ImageNet Training in 24 Minutes
arxiv.org/abs/1709.05011
提出LARS的You, Gitman, Ginsburg, 2017
https://arxiv.org/abs/1708.03888
Facebook的1小時訓練ImageNet
https://arxiv.org/abs/1706.02677
這篇論文昨天在Twitter上引發了一輪關注和討論, 不少人吐槽“只有120萬美元”是怎樣一種炫富。
不過, 穀歌大腦的David Ha解釋說, 120萬美元看起來很多, 但是和昂貴的科學家、工程師團隊比起來, 對企業來說簡直太便宜了。
這個ImageNet Training in 24 Minutes的論文標題, 也招來了不少質疑。 Twitter網友們紛紛認為它雖然說不上錯, 也確實是有點標題黨。
特斯拉AI總監Andrej Karpathy說, 直接在標題上寫個24分鐘過於簡略了, 作者們應該明確指出24分鐘是AlexNet的時間, 而不是ResNet-50, 他們訓練ResNet-50並沒有比Facebook更快。
David Ha緊接著補刀說這種做法有點dishonest。
論文第一作者Yang You在twitter上回應了這些質疑。
而對關於論文標題直接寫了個24分鐘, 沒有提及這是AlexNet的訓練結果一事, Yang You回應說, 其實AlexNet比ResNet更難規模化, comm/comp比值太高了。 在這項工作之前, 人們最高只能把AlexNet的批次大小擴大到1024。
最後, 附David Ha為此論文所作的詩:
I wanna be a billionaire so frickn’ bad
Buy all the GPUs I never had
I wanna be on cover of Forbes magazine
Smiling next Oprah and the Queen
— 完 —
誠摯招聘