您的位置:首頁>科技>正文

伯克利用120萬美元設備24分鐘訓練ImageNet,刷新Facebook成績

李林 編譯整理

量子位元 報導 | 公眾號 QbitAI

最近, 加州大學伯克利分校的研究人員用120萬美元的設備, 24分鐘完成了ImageNet的訓練。

在最近公佈的論文ImageNet Training in 24 Minutes中,

伯克利的Yang You、James Demmel、Kurt Keutzer、TACC(德克薩斯高級計算中心)的Zhao Zhang、和加州大學大衛斯分校的Cho-Jui Hsieh展示了他們的最新成果。

他們在論文中說, 目前快速訓練深度神經網路(DNN)所遇到的瓶頸, 主要是批次(batch)過小。 比如說常用的批次大小是512, 這就很難充分利用很多處理器的性能。

但是, 如果將批次增大, 通常會導致結果準確率明顯降低。

而伯克利的研究人員在這篇論文中, 使用了You, Gitman, Ginsburg, 2017提出的LARS(Layer-wise Adaptive Rate Scaling)演算法, 將批次大幅度增大, 達到比如說32k的大小。

通過這種方法, 他們只用了24分鐘, 就在ImageNet上完成了100個epoch的AlexNet訓練, 完成90個epoch的ResNet-50訓練則用來1小時。

這個成績, 和Facebook之前(Goyal et al 2017)達到的一樣, 但是, 伯克利團隊的設備預算只有120萬美元, 而Facebook的設備花了410萬美元。

附上文提到的幾篇論文地址:

ImageNet Training in 24 Minutes

arxiv.org/abs/1709.05011

提出LARS的You, Gitman, Ginsburg, 2017

https://arxiv.org/abs/1708.03888

Facebook的1小時訓練ImageNet

https://arxiv.org/abs/1706.02677

這篇論文昨天在Twitter上引發了一輪關注和討論, 不少人吐槽“只有120萬美元”是怎樣一種炫富。

不過, 穀歌大腦的David Ha解釋說, 120萬美元看起來很多, 但是和昂貴的科學家、工程師團隊比起來, 對企業來說簡直太便宜了。

這個ImageNet Training in 24 Minutes的論文標題, 也招來了不少質疑。 Twitter網友們紛紛認為它雖然說不上錯, 也確實是有點標題黨。

特斯拉AI總監Andrej Karpathy說, 直接在標題上寫個24分鐘過於簡略了, 作者們應該明確指出24分鐘是AlexNet的時間, 而不是ResNet-50, 他們訓練ResNet-50並沒有比Facebook更快。

David Ha緊接著補刀說這種做法有點dishonest。

論文第一作者Yang You在twitter上回應了這些質疑。

他說, 如果論文中有錯誤, 他們在更新下一版時會作出修改, 120萬美元, 是按英特爾、英偉達設備的官方價格算出來的, 這兩家都是他們實驗室的贊助商。

而對關於論文標題直接寫了個24分鐘, 沒有提及這是AlexNet的訓練結果一事, Yang You回應說, 其實AlexNet比ResNet更難規模化, comm/comp比值太高了。 在這項工作之前, 人們最高只能把AlexNet的批次大小擴大到1024。

最後, 附David Ha為此論文所作的詩:

I wanna be a billionaire so frickn’ bad

Buy all the GPUs I never had

I wanna be on cover of Forbes magazine

Smiling next Oprah and the Queen

— 完 —

誠摯招聘

Next Article
喜欢就按个赞吧!!!
点击关闭提示