您的位置:首頁>科技>正文

IBM完成了創紀錄的深度學習性能:完敗Facebook微軟

昨晚, 外媒都在用誇大的標題報導IBM的人工智慧又犯罪了, 例如說IBM的速度快得很“抓馬”云云。 到底怎樣回事, 量子位把IBM Research的博客全文搬運如下, 大家感受一下IBM這次的捷報……

深度學習是一種被普遍運用的人工智慧辦法, 協助電腦依照人類的方式瞭解並提取圖像和聲音的含義。 深度學習技術有望給各行各業帶來打破, 無論是消費類挪動應用, 還是醫學影像診斷。 但是, 深度學習技術的精確性, 以及大範圍部署才能仍存在技術應戰, 模型的鍛煉時間常常需求幾天以至幾周。

IBM研討院的團隊專注於為大型模型和大範圍資料集縮短鍛煉時間。 我們的目的是, 將深度學習鍛煉的等候時間從幾天或幾小時縮短至幾分鐘或幾秒, 同時優化這些人工智慧模型的精確率。 為了完成這一目的, 我們正在將深度學習部署至大量效勞器和英偉達GPU, 處理“大應戰”範圍的問題。

最搶手的深度學習框架能夠支持在單台效勞器上的多個GPU, 但無法支持多台效勞器。 我們的團隊(包括Minsik Cho、Uli Finkler、David Kung和他們的協作者)編寫了軟體和演算法, 對這種範圍龐大、十分複雜的平行計算任務停止優化, 完成自動化。 這種平行計算任務散佈在數十台效勞器的數百個GPU加速處置器上。

我們的軟體能夠完整同步地停止深度學習鍛煉, 且通訊開支很低。 因而, 當我們將範圍擴展至100s英偉達GPU集群時, 對ImageNet-22k資料庫中750萬張圖片的辨認精確率到達創紀錄的33.8%, 高於此前的最高紀錄, 即來自微軟的29.8%。

4%的精確率提升是宏大的飛躍, 以往的優化通常只能帶來不到1%的精確率提升。 我們創新的散佈式深度學習(DDL)辦法不只進步了精確率, 還應用10s效勞器的性能完成了在短短7小時時間裡鍛煉ResNet-101神經網路模型。

這些效勞器裝備100s的英偉達GPU。

此前, 微軟花了10天時間去鍛煉同樣的模型。 為了完成這一成果, 我們開發了DDL代碼和演算法, 克制在擴展這些性能強大的深度學習框架時固有的問題。

這些結果採用的基準設計目的是為了測試深度學習演算法和系統的極限, 因而雖然33.8%的精確率聽起來可能不算很高, 但相比於以往已有大幅提升。 給予任何隨機圖像, 這個受過鍛煉的人工智慧模型能夠在2.2萬種選擇中給出最高選擇物件(Top-1精度), 精確率為33.8%。

我們的技術將協助其別人工智慧模型針對特定任務停止鍛煉, 例如辨認醫學影像中的癌細胞, 進步準確度, 並使鍛煉和再鍛煉的時間大幅縮短。

Facebook人工智慧研討部門於2017年6月在一篇論文中引見了, 他們如何運用更小的資料集(ImageNet-1k)和更小的神經網路(ResNet 50)來完成這一成果:“深度學習需求大型神經網路和大範圍資料庫才幹快速開展。 但是, 更大的網路和資料庫會形成更長的鍛煉時間, 不利於研討和開發進度。 ”

挖苦的是, 隨著GPU的速度越來越快, 在多台效勞器之間諧和和優化深度學習問題變得越來越艱難。 這形成了深度學習的功用缺失, 促使我們去開發新一類的DDL軟體, 基於大範圍神經網路和大範圍資料集運轉搶手的開原始程式碼, 例如Tensorflow、Caffe、Torch和Chainer, 完成更高的性能和準確度。

在這裡, 我們能夠用“盲人摸象”來形容我們試圖處理的問題, 以及所獲得的初步成果的背景。

依據維琪百科上的解釋:“每個盲人去摸大象身體的不同部位, 但每個人只摸一局部, 例如側面或象牙。 然後他們依據本人的局部經歷來描繪大象。 關於大象是什麼, 他們的描繪完整不同。 ”

雖然最初有分歧, 但假如這些人有足夠多的時間, 那麼就能夠分享足夠多的資訊, 拼湊出十分精確的大象圖片。

相似地, 假如你有大量GPU對某個深度學習鍛煉問題並行處置幾天或幾周時間, 那麼能夠很容易地同步這些學習結果。

隨著GPU的速度越來越快, 它們的學習速度也在變快。 它們需求以傳統軟體無法完成的速度將學到的學問分享給其他GPU。 這給系統網路帶來了壓力, 並構成了棘手的技術問題。

根本而言, 更智慧、速度更快的學習者(GPU)需求更強大的通訊方式, 否則它們就無法同步,或是不得不花大量時間去等候彼此的結果。假如是這樣,那麼在運用更多、學習速度更快的GPU的狀況下,你就無法加快系統速度,以至有可能招致性能惡化。

我們應用DDL軟體處理了這種功用缺失。當你關注擴展效率,或是在增加GPU以接近圓滿系統性能時,優勢表現得最明顯。我們在實驗中試圖理解,256個GPU如何“對話”,以及彼此學習了什麼東西。

此前對256個GPU的最佳擴展來自Facebook人工智慧研討部門(FAIR)。FAIR運用了較小的學習模型ResNet-50以及較小的資料庫ImageNet-1k,後者包含約130萬張圖片。這樣做減小了計算的複雜水準。基於8192的圖片批量範圍,256個英偉達GPU加速集群,以及Caffe2深度學習軟體,FAIR完成了89%的擴展效率。

假如應用ResNet-50模型以及與Facebook同樣的資料集,IBM研討院的DDL軟體基於Caffe軟體能完成95%的效率,如下圖所示。這一結果應用了由64個Minsky Power S822LC系統組成的集群,每個系統中包含4個英偉達P100 GPU。

假如運用更大的ResNet-101模型,以及ImageNet-22k資料庫中的750萬張圖片,圖片批量範圍選擇5120,那麼我們完成的擴展效率為88%。

此外,我們還完成了創紀錄的最快絕對鍛煉時間,即50分鐘,而Facebook此前的紀錄為1小時。我們用ImageNet-1k資料庫鍛煉ResNet-50模型,運用DDL將Torch擴展至256個GPU。Facebook運用Caffe2鍛煉相似的模型。

對開發者和資料科學家來說,IBM研討院的DDL軟體提供了一種API(應用程式介面),每個深度學習框架都能夠掛接並擴展至多台效勞器。技術預覽版已經過PowerAI企業深度學習軟體第4版發佈,任何運用深度學習技術去鍛煉人工智慧模型的企業都能夠運用這種集群擴展功用。

我們估計,經過將這種DDL功用提供應人工智慧社區,隨著其別人應用集群性能去停止人工智慧模型鍛煉,我們將看到精確性更高的模型運轉。

否則它們就無法同步,或是不得不花大量時間去等候彼此的結果。假如是這樣,那麼在運用更多、學習速度更快的GPU的狀況下,你就無法加快系統速度,以至有可能招致性能惡化。

我們應用DDL軟體處理了這種功用缺失。當你關注擴展效率,或是在增加GPU以接近圓滿系統性能時,優勢表現得最明顯。我們在實驗中試圖理解,256個GPU如何“對話”,以及彼此學習了什麼東西。

此前對256個GPU的最佳擴展來自Facebook人工智慧研討部門(FAIR)。FAIR運用了較小的學習模型ResNet-50以及較小的資料庫ImageNet-1k,後者包含約130萬張圖片。這樣做減小了計算的複雜水準。基於8192的圖片批量範圍,256個英偉達GPU加速集群,以及Caffe2深度學習軟體,FAIR完成了89%的擴展效率。

假如應用ResNet-50模型以及與Facebook同樣的資料集,IBM研討院的DDL軟體基於Caffe軟體能完成95%的效率,如下圖所示。這一結果應用了由64個Minsky Power S822LC系統組成的集群,每個系統中包含4個英偉達P100 GPU。

假如運用更大的ResNet-101模型,以及ImageNet-22k資料庫中的750萬張圖片,圖片批量範圍選擇5120,那麼我們完成的擴展效率為88%。

此外,我們還完成了創紀錄的最快絕對鍛煉時間,即50分鐘,而Facebook此前的紀錄為1小時。我們用ImageNet-1k資料庫鍛煉ResNet-50模型,運用DDL將Torch擴展至256個GPU。Facebook運用Caffe2鍛煉相似的模型。

對開發者和資料科學家來說,IBM研討院的DDL軟體提供了一種API(應用程式介面),每個深度學習框架都能夠掛接並擴展至多台效勞器。技術預覽版已經過PowerAI企業深度學習軟體第4版發佈,任何運用深度學習技術去鍛煉人工智慧模型的企業都能夠運用這種集群擴展功用。

我們估計,經過將這種DDL功用提供應人工智慧社區,隨著其別人應用集群性能去停止人工智慧模型鍛煉,我們將看到精確性更高的模型運轉。

Next Article
喜欢就按个赞吧!!!
点击关闭提示