您的位置:首頁>科技>正文

英偉達的新GPU來了,FPGA和ASIC要扔掉嗎?

雷鋒網AI科技評論消息, 美國時間5月10日, NVIDIA CEO黃仁勳在開發者大會GTC2017上發佈新一代GPU架構Volta, 首款核心為GV100, 採用台積電12nm制程, 最大亮點是成倍提升了推理性能, 意欲在目前稱霸機器學習訓練場景的基礎上, 在推理場景也成為最佳商用選擇。

GV100 GPU

據雷鋒網瞭解, Volta架構GV100 GPU採用台積電(TSMC)12nm FFN制程, 具有5120個CUDA核心。 相比上一代16nm制程的Pascal架構GPU GP100, 電晶體數目增加了38%, 達到了驚人的211億個;核心面積也繼續增加33%, 達到令人生畏的815mm2,

約等於一塊Apple Watch的面積, 據黃仁勳稱這樣的面積已經達到了製造工藝極限。 隨著核心的增大, GV100的單、雙精度浮點性能也大幅提升了41%。 然而這還不是重點, 為了滿足GPU在機器學習中的性能需求, Volta架構中引入了新的張量運算指令Tensor Core, 讓機器學習中訓練速度提升約3倍、推理性能提升約10倍(相比上一代自家GPU GP100)。

GV100搭載在TESLA V100開發板上亮相, 配合來自三星的16GB HBM2顯存, 顯存頻寬也達到了900GB/s之高。

根據現場演講PPT, 推理場景下, V100比上一代搭載GP100 CPU的P100板卡, 影像處理能力提升了約10倍, 延遲也下降了約30%。 在這樣的性能提升之下, GPU已經可以讓FPGA和ASIC幾乎沒有用武之地, 在商用場景中幾乎滿足全部計算需求。

DGX-1V、DGX Station

隨著GV100 GPU發佈, NVIDIA的深度學習超級電腦也進行了升級。 老款DGX-1把原有Pascal GPU升級為Volta GPU, 名字也更新為DGX-1V。 它內置八塊 Tesla V100開發板, 合計顯存128G、運算能力為960 Tensor TFLOPS, 即將邁入下一個時代。 黃仁勳表示, 過去 Titan X 需花費八天訓練的神經網路,

用 DGX-1V 只需八個小時。 它相當於是“把 400 個伺服器裝進一個盒子裡”。

DGX Station 則是縮小版的 DGX-1V, 黃仁勳稱其為“Personal DGX”, 堪稱是終極個人深度學習電腦, 各方面指標均為DGX-1V的一半, 但仍然已經非常強大。 英偉達內部使用DGX Station已經很久, 每個工程師要麼有 DGX-1V, 要麼有 DGX Station, 再要麼兩個都有。 既然它確實能夠滿足工程師的需求, 英偉達決定把這款產品推廣給公眾市場。

NVIDIA意圖通過GV100完全稱霸機器學習硬體市場

據雷鋒網AI科技評論瞭解, 機器學習中需要用到高計算性能的場景有兩種, 一種是訓練, 通過反復計算來調整神經網路架構內的參數;另一種是推理, 用已經確定的參數批量化解決預定任務。 而在這兩種場景中, 共有三種硬體在進行競爭, GPU、FPGA和ASIC。

GPU(以前是Graphics Processing Unit圖形計算單元, 如今已經是General Processing Unit通用計算單元)具有高的計算能力、高級開發環境、不影響機器學習演算法切換的優點,雖然同等計算能力下能耗最高,但仍然在演算法開發和機器學習訓練場景中佔據絕對的市場地位。

FPGA(Field-Programmable Gate Array,現場可程式設計矩陣門)是一種半成型的硬體,需要通過程式設計定義其中的單元配置和連結架構才能進行計算,相當於也具有很高的通用性,功耗也較低,但開發成本很高、不便於隨時修改,訓練場景下的性能不如GPU。

ASIC(Application Specific Integrated Circuits,專用積體電路)是根據確定的演算法設計製造的專用電路,看起來就是一塊普通的晶片。由於是專用電路,可以高效低能耗地完成設計任務,但是由於是專用設計的,所以只能執行本來設計的任務,在做出來以後想要改變演算法是不可能的。谷歌的TPU(Tensor Processing Unit張量處理單元)就是一種介於ASIC和FPGA之間的晶片,只有部分的可定制性,目的是對確定演算法的高效執行。

所以目前的狀況是,雖然GPU在演算法開發和機器學習訓練場景中佔有絕對地位;但是由於FPGA和ASIC在任務和演算法確定的情況下,在長期穩定大規模執行(推理)方面有很大優勢,所以GPU跟FPGA和ASIC之間還算互有進退,尤其GPU相同性能下功耗很高,對大規模計算中心來說電費都是很高的負擔。但隨著GV100對推理計算能力的約10倍提升,商用場景下已經沒有必要為了推理場景更換硬體了,同一套GPU可以在訓練場景的計算能力和推理場景的計算能力同時達到同功耗下最佳,還具有最好的拓展和修改能力,簡直別無所求。

面對提升如此明顯的GPU,一眾投身機器學習硬體的FGPA和ASIC廠商前景令人擔憂。也許現在唯一能讓他們鬆口氣的就是GV100 GPU的量產出貨時間要到2017年三四季度。等2018年,希望大規模部署後的GV100能用成倍提升後的性能給我們帶來新的驚喜。

如今已經是General Processing Unit通用計算單元)具有高的計算能力、高級開發環境、不影響機器學習演算法切換的優點,雖然同等計算能力下能耗最高,但仍然在演算法開發和機器學習訓練場景中佔據絕對的市場地位。

FPGA(Field-Programmable Gate Array,現場可程式設計矩陣門)是一種半成型的硬體,需要通過程式設計定義其中的單元配置和連結架構才能進行計算,相當於也具有很高的通用性,功耗也較低,但開發成本很高、不便於隨時修改,訓練場景下的性能不如GPU。

ASIC(Application Specific Integrated Circuits,專用積體電路)是根據確定的演算法設計製造的專用電路,看起來就是一塊普通的晶片。由於是專用電路,可以高效低能耗地完成設計任務,但是由於是專用設計的,所以只能執行本來設計的任務,在做出來以後想要改變演算法是不可能的。谷歌的TPU(Tensor Processing Unit張量處理單元)就是一種介於ASIC和FPGA之間的晶片,只有部分的可定制性,目的是對確定演算法的高效執行。

所以目前的狀況是,雖然GPU在演算法開發和機器學習訓練場景中佔有絕對地位;但是由於FPGA和ASIC在任務和演算法確定的情況下,在長期穩定大規模執行(推理)方面有很大優勢,所以GPU跟FPGA和ASIC之間還算互有進退,尤其GPU相同性能下功耗很高,對大規模計算中心來說電費都是很高的負擔。但隨著GV100對推理計算能力的約10倍提升,商用場景下已經沒有必要為了推理場景更換硬體了,同一套GPU可以在訓練場景的計算能力和推理場景的計算能力同時達到同功耗下最佳,還具有最好的拓展和修改能力,簡直別無所求。

面對提升如此明顯的GPU,一眾投身機器學習硬體的FGPA和ASIC廠商前景令人擔憂。也許現在唯一能讓他們鬆口氣的就是GV100 GPU的量產出貨時間要到2017年三四季度。等2018年,希望大規模部署後的GV100能用成倍提升後的性能給我們帶來新的驚喜。

Next Article
喜欢就按个赞吧!!!
点击关闭提示