您的位置:首頁>科技>正文

英偉達30億賭注:詳解最強深度學習處理器,GPU雲及新DGX

昨晚堪稱進行了一次AI“爆炸”, 好幾件大事同時發生。

首先, 英偉達GTC大會行至高潮, 新一代GPU正式發佈, 以及多項配套新技術, 英偉達股價一夜上漲17%。

其次, 微軟Build大會也掀起高潮, 軟體巨頭推出智慧音箱等新產品, 並且在邊緣計算、人工智慧等方面投下重注。

量子位先講講英偉達發佈的新一代最強深度學習處理器。

英偉達CEO黃仁勳昨晚在英偉達GPU技術大會上發佈了新的GPU架構Volta。 Volta相對於前代產品性能提升了5倍。 共有超過7000名科學家、工程師、創業者和媒體參加了此次大會。

在兩小時的發佈會上, 黃仁勳發佈了多款基於Volta的全新人工智慧超級電腦, 包括新款英偉達DGX-1深度學習電腦;展示了Isaac機器人訓練模擬器;推出了英偉達GPU雲平臺, 幫助開發者獲得最新經過優化的深度學習框架;以及宣佈了與豐田關於新一代自動駕駛汽車的合作。

AI推動了對GPU計算能力的需求

目前, 全球有數億用戶依靠基於人工智慧的搜索、翻譯, 以及語音辨識服務。 黃仁勳指出, 去年, 對人工智慧創業公司的投資總額達到50億美元。 在兩年時間裡, Udacity線上教育平臺上參與人工智慧課程的學生增加了100倍, 達到2萬人。

這推動了對更龐大人工智慧計算能力的需求。

兩年前, 領先的圖像識別系統需要每秒7000千萬億次浮點運算的計算能力。 而目前, 處理即時語言翻譯的研究者需要超過每秒100000千萬億次浮點運算的能力。 作為對比, 全球排名前500的超級電腦峰值性能總和還不到每秒1000千萬億次浮點運算。

摩爾定律的失效

計算需求的迅速增長恰逢摩爾定律的失效。

目前, 傳統CPU單執行緒性能的每年提升只有1.1倍。 而作為對比, GPU性能的提升仍能達到每年1.5倍。 這些性能提升來自於晶片技術和軟體技術的發展。

“有人認為, 這代表了摩爾定律的失效。 ”黃仁勳表示, “這正是我們存在的原因。 我們意識到, 在摩爾定律終結之後, 必須找到前進的道路。 ”

新架構:Volta

其實早在2013年, 英偉達就公佈了Volta架構名稱。 不過, 後來這家公司的架構演進, 變成Maxwell、Pascal和Volta。

Volta架構的第一款GPU是GV100, 這是Pascal GP100的後繼者, 這也是英偉達的新一代GPU旗艦, 用以驅動下一代Tesla產品。

Volta幾乎是一個全新的架構, 並不是12nm制程Pascal架構+新的Tensor Cores。 在執行緒執行、調度、核心佈局、記憶體控制、ISA等方面都有顯著不同。

Tensor Cores是Volta的一種新核心, 專門為Tensor深度學習運算設計。 這些內核本質上是將用於執行4×4矩陣操作的ALU大量集合在一起, 特別是融合了乘法加法(A×B+C), 將兩個4×4 FP16矩陣相乘, 然後加上一個FP16或者FP32的4×4矩陣, 最後生成一個4×4 FP32矩陣。

這些核心的意義在於, 通過在一個單元中執行巨大的矩陣矩陣乘法運算, NVIDIA可以為該操作實現更高數量的FLOPS。

單個Tensor Core每時鐘執行64個FMA操作(總共128 FLOPS),每個SM具有8個這樣的內核,每個SM每個時鐘1024個FLOPS。相比之下,即使採用純FP16操作,SM中的標準CUDA內核只能在每個時鐘產生256個FLOPS。

因此,在可以使用這些內核的情況下,可以實現4倍於Pascal架構的性能。

Volta還使用了最新NVLink,可以提供更大的頻寬。GV100比GP100度兩個NVlinks,一共有6個。

另外,Volta使用的SIMT(單指令多執行緒)也有重大改變。32執行緒內的單個CUDA內核現在具有有限的自主權。執行緒現在可以在一個細細微性的水準上進行同步,這意味著更高的整體效率。個別執行緒現在可以產生,然後重新安排在一起。

Tesla V100 GPU

使用GV100 GPU的第一個產品,是Tesla V100。這也是一款專注深度學習的最新加速處理器。

這款加速處理器搭載了210億個電晶體,使用了台積電12納米FinFET工藝製造。Tesla V100包含5120個CUDA核心,在64位計算精度下能實現每秒7.5萬億次浮點運算,在32位計算精度下能實現每秒15萬億次浮點運算。

英偉達CEO黃仁勳表示,V100搭載了新的Tensor核心,其中包含4x4的主處理陣列,能並行完成矩陣乘法,以某些精度來看輸送量達到前一代Pascal架構的12倍。

他同時表示,相對於Pascal架構,V100的通用每秒浮點運算次數為1.5倍,對深度學習訓練的提升達到12倍,而深度學習推理的性能達到6倍。

黃仁勳指出:“在Titax X上需要花幾分鐘完成的任務目前只需要幾秒鐘。”

英偉達將於今年第四季度開始銷售V100。

去年9月,英偉達推出了專用於神經網路的Pascal GPU。Pascal架構在去年5月的大會上發佈。

30億美元的賭注

為了Tesla V100,英偉達投入了超過30億美元,而處理器的製造已達到了“光刻工藝的極限”。

Volta將支持新發佈的深度學習框架Caffe 2、微軟Cognitive Toolkit、MXNet,以及穀歌TensorFlow。使用者可以很方便地發揮Volta的全部性能。

微軟Azure企業副總裁Jason Zander表示:“我們的雲計算平臺正在部署第二代GPU。我們剛剛宣佈了P40和P100系列產品,但我們也很喜歡Volta。我的工作是吸引人們使用Azure雲計算平臺。人們喜歡使用立即可以上手,不需要等待的產品。我們希望讓資料科學家和開發者專注於自己的模型,而不是底層設施。”

亞馬遜AWS深度學習和人工智慧總經理Matt Wood也在發佈會上登臺。他表示:“我們感到非常興奮。在訓練和推理兩方面,我們都看到了性能的優化。我們很高興成為產品發佈的合作夥伴。”

DGX

新款DGX-1電腦搭載了8顆Volta GPU,售價為14.9萬美元。此外,黃仁勳還發佈了新的靜音工作站英偉達DGX Station。這款工作站搭載了4顆V100 GPU,帶來了每秒480萬億次浮點運算能力,售價6.9萬美元。

Isaac機器人訓練模擬器

黃仁勳此次還展示新的Isaac機器人訓練模擬器。通過該模擬器,機器人可以在虛擬世界中接受訓練,隨後部署至真實世界。在演示中,機器人被訓練打高爾夫球和曲棍球。黃仁勳還表示,這一技術將使製造、醫療和建築等行業的機器人訓練更安全、更快、成本更低。

黃仁勳指出:“我們需要創造一個替代世界。”這一世界要遵守所有的物理定律,需要看起來真實,需要支援在其中的學習。而與真實世界最主要的不同在於,需要加速運轉,使速度更快。

GPU雲

英偉達還推出了GPU雲平臺(NGC),可以讓開發者跨平臺接入最新的深度學習框架,以及利用最新的GPU計算資源。

在深度學習中有兩個挑戰,一個是需要把所需軟體,包括優化後的深度學習框架、庫、作業系統和驅動程式等裝入一個堆疊之中,二是利用最新的GPU計算資源來訓練神經網路。

為了解決這個問題,英偉達推出了NGC。

NGC堆疊可以提供眾多的軟體,包括:Caffe,、Caffe2、CNTK、MXNet、TensorFlow、Theano、Torch等框架,以及NVIDIA DIGITS GPU訓練系統,NVIDIA深度學習SDK,英偉達docker,GPU驅動和CUDA等。

只需要一個英偉達帳號,無論在PC、DGX或者NGC哪一種平臺,用戶都能簡單的開展深度學習工作流程。一句話,英偉達表示使用NGC以後,深度學習的模型從原型到部署都更為容易,並且靈活使用計算資源。

NGC今年第三季度將開始公開測試,定價也將在稍後公佈。

與豐田合作

黃仁勳宣佈,豐田將在自動駕駛汽車中使用英偉達即將推出的Xavier SOC。這其中包含512核的Volta GPU,能帶來每秒30萬億次浮點運算的深度學習計算能力,功耗只有30瓦。

“從許多方面來看,豐田是一家傳奇性的公司,發明了許多當代管理系統。”黃仁勳表示,“我們雙方的工程團隊將合作開發豐田自動駕駛汽車,並在未來幾年內上路行駛。”

與SAP合作

黃仁勳還談到了英偉達與SAP的合作。這項合作已幫助SAP開發了多款應用,更好地追蹤品牌曝光,自動從企業應付帳款系統中提取分類資料,以及分析客戶投訴中的非結構化資訊,從而更快地找到公司內能解決問題的人。

Project Holodeck

黃仁勳還介紹了一款新工具Project Holodeck,用於在高度模擬的虛擬實境環境中展開協作。在展示Project Holodeck的過程中,他與科尼塞克創始人Christian von Koenigsegg進行了合作,後者位於瑞典。他們共同檢查了價值190萬美元Regera超級跑車的內飾。

【完】

P.S. 開頭已經提到了,英偉達股價昨晚一路狂飆。放個圖感受一下:

NVIDIA可以為該操作實現更高數量的FLOPS。

單個Tensor Core每時鐘執行64個FMA操作(總共128 FLOPS),每個SM具有8個這樣的內核,每個SM每個時鐘1024個FLOPS。相比之下,即使採用純FP16操作,SM中的標準CUDA內核只能在每個時鐘產生256個FLOPS。

因此,在可以使用這些內核的情況下,可以實現4倍於Pascal架構的性能。

Volta還使用了最新NVLink,可以提供更大的頻寬。GV100比GP100度兩個NVlinks,一共有6個。

另外,Volta使用的SIMT(單指令多執行緒)也有重大改變。32執行緒內的單個CUDA內核現在具有有限的自主權。執行緒現在可以在一個細細微性的水準上進行同步,這意味著更高的整體效率。個別執行緒現在可以產生,然後重新安排在一起。

Tesla V100 GPU

使用GV100 GPU的第一個產品,是Tesla V100。這也是一款專注深度學習的最新加速處理器。

這款加速處理器搭載了210億個電晶體,使用了台積電12納米FinFET工藝製造。Tesla V100包含5120個CUDA核心,在64位計算精度下能實現每秒7.5萬億次浮點運算,在32位計算精度下能實現每秒15萬億次浮點運算。

英偉達CEO黃仁勳表示,V100搭載了新的Tensor核心,其中包含4x4的主處理陣列,能並行完成矩陣乘法,以某些精度來看輸送量達到前一代Pascal架構的12倍。

他同時表示,相對於Pascal架構,V100的通用每秒浮點運算次數為1.5倍,對深度學習訓練的提升達到12倍,而深度學習推理的性能達到6倍。

黃仁勳指出:“在Titax X上需要花幾分鐘完成的任務目前只需要幾秒鐘。”

英偉達將於今年第四季度開始銷售V100。

去年9月,英偉達推出了專用於神經網路的Pascal GPU。Pascal架構在去年5月的大會上發佈。

30億美元的賭注

為了Tesla V100,英偉達投入了超過30億美元,而處理器的製造已達到了“光刻工藝的極限”。

Volta將支持新發佈的深度學習框架Caffe 2、微軟Cognitive Toolkit、MXNet,以及穀歌TensorFlow。使用者可以很方便地發揮Volta的全部性能。

微軟Azure企業副總裁Jason Zander表示:“我們的雲計算平臺正在部署第二代GPU。我們剛剛宣佈了P40和P100系列產品,但我們也很喜歡Volta。我的工作是吸引人們使用Azure雲計算平臺。人們喜歡使用立即可以上手,不需要等待的產品。我們希望讓資料科學家和開發者專注於自己的模型,而不是底層設施。”

亞馬遜AWS深度學習和人工智慧總經理Matt Wood也在發佈會上登臺。他表示:“我們感到非常興奮。在訓練和推理兩方面,我們都看到了性能的優化。我們很高興成為產品發佈的合作夥伴。”

DGX

新款DGX-1電腦搭載了8顆Volta GPU,售價為14.9萬美元。此外,黃仁勳還發佈了新的靜音工作站英偉達DGX Station。這款工作站搭載了4顆V100 GPU,帶來了每秒480萬億次浮點運算能力,售價6.9萬美元。

Isaac機器人訓練模擬器

黃仁勳此次還展示新的Isaac機器人訓練模擬器。通過該模擬器,機器人可以在虛擬世界中接受訓練,隨後部署至真實世界。在演示中,機器人被訓練打高爾夫球和曲棍球。黃仁勳還表示,這一技術將使製造、醫療和建築等行業的機器人訓練更安全、更快、成本更低。

黃仁勳指出:“我們需要創造一個替代世界。”這一世界要遵守所有的物理定律,需要看起來真實,需要支援在其中的學習。而與真實世界最主要的不同在於,需要加速運轉,使速度更快。

GPU雲

英偉達還推出了GPU雲平臺(NGC),可以讓開發者跨平臺接入最新的深度學習框架,以及利用最新的GPU計算資源。

在深度學習中有兩個挑戰,一個是需要把所需軟體,包括優化後的深度學習框架、庫、作業系統和驅動程式等裝入一個堆疊之中,二是利用最新的GPU計算資源來訓練神經網路。

為了解決這個問題,英偉達推出了NGC。

NGC堆疊可以提供眾多的軟體,包括:Caffe,、Caffe2、CNTK、MXNet、TensorFlow、Theano、Torch等框架,以及NVIDIA DIGITS GPU訓練系統,NVIDIA深度學習SDK,英偉達docker,GPU驅動和CUDA等。

只需要一個英偉達帳號,無論在PC、DGX或者NGC哪一種平臺,用戶都能簡單的開展深度學習工作流程。一句話,英偉達表示使用NGC以後,深度學習的模型從原型到部署都更為容易,並且靈活使用計算資源。

NGC今年第三季度將開始公開測試,定價也將在稍後公佈。

與豐田合作

黃仁勳宣佈,豐田將在自動駕駛汽車中使用英偉達即將推出的Xavier SOC。這其中包含512核的Volta GPU,能帶來每秒30萬億次浮點運算的深度學習計算能力,功耗只有30瓦。

“從許多方面來看,豐田是一家傳奇性的公司,發明了許多當代管理系統。”黃仁勳表示,“我們雙方的工程團隊將合作開發豐田自動駕駛汽車,並在未來幾年內上路行駛。”

與SAP合作

黃仁勳還談到了英偉達與SAP的合作。這項合作已幫助SAP開發了多款應用,更好地追蹤品牌曝光,自動從企業應付帳款系統中提取分類資料,以及分析客戶投訴中的非結構化資訊,從而更快地找到公司內能解決問題的人。

Project Holodeck

黃仁勳還介紹了一款新工具Project Holodeck,用於在高度模擬的虛擬實境環境中展開協作。在展示Project Holodeck的過程中,他與科尼塞克創始人Christian von Koenigsegg進行了合作,後者位於瑞典。他們共同檢查了價值190萬美元Regera超級跑車的內飾。

【完】

P.S. 開頭已經提到了,英偉達股價昨晚一路狂飆。放個圖感受一下:

Next Article
喜欢就按个赞吧!!!
点击关闭提示