華文網

戰爭一觸即發:人工智慧處理器之戰或將于2018年開啟?

回顧2017年,常發表威脅論的馬斯克也開始造晶片,英特爾發佈Nervana神經網路處理器和人工智慧晶片Loihi,英偉達推出進化版TITAN V 等等,這一年各個巨頭可謂是在人工智慧領域卯足了勁兒,

經過這年如火如荼的積蓄,2018勢必將是充滿“硝煙”的一年。

關於人工智慧的硬體,CPU,GPU,TPU(張量處理單元),甚至是FPGA,已經很難判斷是誰開啟了這場人工智慧之戰,要說誰將終結人工智慧時代更是為時過早。但是2018年將是晶片製造商之間長期戰鬥的開始,在人工智慧領域的硬體之爭,怕是一定要決出個高下了。

當英特爾在Automobility LA 2017上宣佈發佈最新的人工智慧硬體,這並不是對外發起挑戰的意思。

相反,它只是少數幾個主要科技巨頭的一系列最新技術更新,畢竟大家的目標都是在人工智慧硬體領域打下堅實的基礎。因為就目前的發展狀況來看,人工智慧將成為包括製造業、汽車、物聯網、醫療甚至娛樂業在內的眾多行業中的主導力量之一。

在硬體方面,人工智慧被鎖定在自己的“權力遊戲”之中,不同的企業都在爭奪霸主地位,創造出晶片架構,特別是在深度學習和神經網路方面以期獲得優勢。

據Research and Markets和TechNavio的分析師預測,全球AI晶片市場將在2017年至2021年間以年均54%的速度增長。

Technavio嵌入式系統研究首席分析師Raghu Raj Singh表示,“對能夠滿足深度學習的高功率硬體的需求是推動這一發展的關鍵驅動力。硬體的高增長率是由於對高計算能力的硬體平臺的需求不斷增長,這有助於運行深度學習的演算法。初創企業和老牌企業之間日益激烈的競爭正在引領新的人工智慧產品的發展,

無論是硬體還是軟體平臺,都在運行著深度學習和演算法。”

競爭正在升溫。人工智慧將成為計算硬體的下一個前沿領域,自從移動計算和互聯網出現以來,人工智慧可能是電腦硬體最重要的戰場。

那麼,我們是如何到達這裡的,誰又是這其中的大玩家呢?

好的CPU

那些不需要人為干預的自動駕駛汽車,可能是有史以來最聰明、最複雜的機器之一。

很顯然,自動駕駛車輛已經成為人工智慧的主要目標之一,而英特爾正在為這個目標不斷奮鬥。

英特爾並不僅僅是在內部進行研發工作,而是利用收購來使得在人工智慧領域的腳步更穩。 2016年8月,英特爾收購了神經網路處理器製造商Nervana Systems。

談到神經網路,它能夠非常有效地執行各種各樣的任務,但為了完成這些任務,首先必須教導網路如何執行這些任務。首先,神經網路執行要識別出狗的圖片就必須明白狗的特徵,

並且瞭解它的所有品種。光從這一點上來看,就會十分耗費時間,可能會需要成千上萬甚至數百萬的狗的圖像才能夠完成相應的任務。

在2016年11月,在收購Nervana幾個月後,英特爾宣佈推出一系列處理器 - Nervana平臺,直接針對人工智慧相關的應用,例如訓練神經網路。英特爾資料中心事業部執行副總裁兼總經理Diane Bryant表示,“我們期望英特爾Nervana平臺能夠產生突破性的性能,並大大縮短訓練複雜神經網路的時間。在這個十年結束之前,英特爾將提供100倍的性能提升,這將在新興的深度學習領域大大加速創新的步伐。”

今年3月,英特爾又在Mobileye公司進行了另一項引人注目的人工智慧收購,這是一款基於機器學習的高級駕駛員輔助系統(ADAS)的開發,其價值約為150億美元。英特爾收購的意義馬上就顯現了出來。這家晶片製造商希望在自動駕駛車輛領域佔有一席之地,也許這樣做也將自己定位為一個關鍵的機器學習硬體提供商。

在去年11月舉行的洛杉磯Automobility LA貿易展覽會上,英特爾首席執行官Brian Krzanich稱自動駕駛是現今最大的遊戲改變者,因為該公司宣佈收購Mobileye公司後已經生產了一款新的SoC、EyeQ5。

Tera每秒運算(TOPS)是用於高性能SoC的通用性能指標。每瓦TOPS可以擴展該測量來描述性能效率。每瓦TOPS越高,晶片的效率越高。深度學習TOPS(DL)是指進行深度學習相關的操作的效率。根據英特爾的基於類比的測試,EyeQ5預計將提供每瓦2.4 DL TOPS,是Nvidia的Xavier效率的兩倍多,它的效率大約是每瓦執行1 DL TOPS。

英特爾自動駕駛集團(ADG)高級副總裁兼總經理Doug Davis在接受《設計新聞》時表示,“英特爾選擇將重點放在每瓦特的DL型電腦上,因為它希望把重點放在處理器效率上,而不是其他指標。關注DL每瓦功耗是電源消耗的一個很好的指標,但是如果你考慮這個問題,它也會影響重量、成本和散熱的問題,所以我們真的覺得效率是關注的重點。”

Davis補充表示,“總是圍繞絕對性能進行大量的討論,但是當我們考慮這個問題時,應該從更實際的角度出發,因為我們考慮了不同類型的工作量。深度學習是能夠識別物件並做出決策,並盡可能快速有效地完成這一任務的關鍵。“

然而,英偉達公司已經對英特爾的資料提出了異議,尤其是考慮到EyeQ5的估計是基於模擬的,SoC將在兩年內不可用。 今天所知道的是我們宣佈的Xavier將於2018年初開始提供,相比於EyeQ5純粹的24 TOPS兩年後的模擬預測,30 TOPS的性能更高。

GPU是否註定要AI?

GPU製造商已經發現自己掌握著可能處於人工智慧革命最前沿的技術。GPU曾被認為是CPU的補充單元(許多CPU將GPU集成到GPU中以處理圖形處理),GPU已經擴展到以圖形和視頻為中心的領域之外,並進入深度學習領域,GPU製造商表示他們提供的性能遠優於CPU。

Titan V GPU

雖然GPU市場上有少數幾家公司,但似乎Nvidia更像這個技術的代名詞。根據Jon Peddie研究公司的報告,Nvidia在2017年第三季度的GPU出貨量上升了29.53%,主要競爭對手AMD和Intel都出局。AMD的出貨量增加了7.63%,而Intel的出貨量增加了5.01%。當然,這主要是由視頻遊戲市場推動的,但Jon Peddie Research的分析師認為,與加密貨幣挖掘有關的應用程式和對高端性能的需求也對出貨量有所貢獻。

對於能夠處理需要高性能的特定任務的處理器(如加密貨幣挖掘和AI應用程式)的需求正是GPU發現自己處於AI硬體對話最前沿的原因。 GPU包含數百個可同時執行數千個軟體執行緒的內核,同時比CPU更節能。儘管CPU是普遍化的並且傾向於跳躍,執行許多不同的任務,但是GPU擅長在大批量資料上一次又一次地執行相同的操作。

就在今年十二月份,Nvidia宣佈推出了一款基於PC的GPU Titan V,專為深度學習而設計。新的GPU基於Nvidia的Volta架構,該架構利用了Nvidia稱之為Tensor Cores的新型核心技術。Nvidia所做的是開發具有複雜架構,專門用於處理深度學習和神經網路計算的需求。

Titan V包含210億個電晶體,能夠提供110 teraflops的深度學習性能。 Nvidia將目標瞄準從事人工智慧和深度學習的開發人員。Titan V.公司創始人兼首席執行官Jensen Huang在一次新聞發佈會上表示,“Titan V是有史以來為個人電腦開發的最強大的GPU。我們對Volta的願景是推動高性能計算和人工智慧的外部極限。我們開發了新的處理器架構、指令、數位格式、記憶體架構和處理器連結。隨著泰坦V的出現,我們把Volta推向世界各地的研究人員和科學家手中。”

一個由張量構成的世界

提到張量的概念,那就不得不提穀歌公司了。在過去的一年,這個搜索巨頭發佈了一個名為TensorFlow的深度學習開發的已經流行的開源框架。如Google所述,“TensorFlow是一個使用資料流程圖進行數值計算的開源軟體庫。圖中的節點表示數學運算,而圖邊表示在它們之間通信的多維資料陣列(張量)。靈活的體系結構允許您使用單個API將計算部署到桌面、伺服器或移動設備中的一個或多個CPU或GPU上。”

Google的張量處理單元(TPU)

TensorFlow的機器學習應用程式庫包括面部識別、電腦視覺,當然還有其他應用程式中的搜索,在2016年的時候就已經被證明非常流行,以至於2016年英特爾一直致力於優化其處理器來運行TensorFlow。在2017年,穀歌還發佈了針對移動和Android開發者的精簡版TensorFlow。

但Google沒有讓軟體成為人工智慧野心的終點。在2016年,該公司發佈了第一代稱為張量處理單元(TPU)的新處理器。 Google的TPU是一個專為機器學習而設計的ASIC,專為運行TensorFlow而量身定制。而第二代TPU在今年五月份宣佈,據Google稱,它能夠提供高達180 teraflops的性能。

作為加拿大多倫多第44屆電腦體系結構國際研討會(ISCA)的一部分,Google於2017年6月發佈了一項研究報告,將其在資料中心部署的TPU與Intel Haswell CPU和部署在同一資料中心的Nvidia K80 GPU進行了比較, TPU平均比GPU和CPU執行速度快15到30倍。每瓦TPU的TOPS也高出約30到80倍。 Google表示,TPU正在推動其所有線上服務,如搜索、街景、Google相冊和Google翻譯。

在一份詳細介紹最新熱塑性聚氨酯(TPU)的文章中,Google的工程師們表示,早在六年前,當Google發現自己將深度學習融入越來越多的產品時,熱塑性聚氨酯的需求就出現了。Google工程師認為,“如果我們假設人們每天只使用Google語音搜索三分鐘,並且在我們正在使用的處理單元上運行深度神經網路來處理語音辨識系統,那麼我們必須加倍的增加Google的資料中心!”

Google的工程師在設計TPU時表示,他們採用了他們所說的“收縮性設計”。“這種設計被稱為收縮性的,因為資料通過晶片流動,這讓人想起心臟泵血的方式。矩陣乘法單元MXU中的特殊類型的脈動陣列針對執行矩陣乘法時的功率和面積效率進行了優化,不適合於通用計算,於是它做了一個工程折衷:限制寄存器、控制和操作的靈活性,以換取效率和更高的操作密度。”

在一些非常高端的AI應用中,TPU也已經證明了自己。 TPU是Google著名的AlphaGo AI背後的大腦,在去年擊敗了世界冠軍,引起人們對於人工智慧的關注。經過短短幾個月的訓練,AlphaGo的最新版本AlphaGo Zero就能夠將自己的能力遠遠超過人類專家。對於國際象棋(一個複雜的遊戲,但是比Go要小得多),在幾個小時內的訓練之後也能達到比較顯著的效果。

FPGA - AI競賽中的黑馬

那麼,TPU是AI的未來,對嗎?微軟認為,在可擴展性和靈活性方面,基於FPGA的解決方案可能將優於CPU、GPU或TPU提供的解決方案。

微軟的Project Brainwave以39.5萬億次浮點運算的速度運行,在英特爾層的10個fpga上運行時,它的延遲時間還不到一毫秒。

儘管基於處理器的解決方案在某種程度上由於其設計而局限於特定的任務,但是由於FPGA的靈活性和可程式設計性,所以或許可以使用FPGA來提供更容易的升級和更好的性能。根據微軟的說法,在Intel Stratix 10 FPGA上運行時,微軟的Project Brainwave以39.5 teraflops的速度執行,延時不到1毫秒。

FPGA是否為人工智慧提供最佳選擇與其他方面一樣值得商榷。微軟認為創造人工智慧專用ASIC的生產成本太高,而另一些人則認為FPGA將永遠無法完全實現專為人工智慧設計的晶片性能。

在3月份的“現場可程式設計閘陣列國際研討會”(ISFPGA)上發表的一篇文章中,一組來自英特爾加速器架構實驗室的研究人員評估了兩代英特爾FPGA(Arria10和Stratix 10)與Nvidia Titan X Pascal Titan V)處理深度神經網路(DNN)演算法。據英特爾研究人員稱:“我們的研究結果顯示,Stratix 10 FPGA的性能(TOP / sec)比Titan X Pascal圖形處理器在[矩陣乘法](GEMM)操作上的性能提高了10%、50%甚至5.4倍。在Ternary-ResNet上,Stratix 10 FPGA可以比Titan X Pascal GPU提供60%的性能提升,性能功耗比提高2.3倍。我們的結果表明,FPGA可能成為加速下一代DNN的首選平臺。”

誰戴上皇冠?

在這個特定的時間點,就整體性能而言,很難不爭論這些硬體在人工智慧領域的表現,也很難不比較巨頭們之間的表現。但是,就小編的粗淺認識來看,很多硬體並不是單純的誰取代誰的角色,可能面對不同的用戶、不同的細分領域就會有不同的選擇,

就落地的應用來說,自動駕駛汽車正在成為將人工智慧應用於更廣泛的公眾意識中,這可能是機器人、製造業、甚至娛樂領域的進步,真正推動人工智慧的發展,但這並不是為了阻斷新興應用的誕生之路。

當發展步入正軌時,它可能不是一家企業主宰人工智慧領域,未來可能會看到硬體領域的爭鬥越來越激烈,也或許是別的,時間會證明一切。

並大大縮短訓練複雜神經網路的時間。在這個十年結束之前,英特爾將提供100倍的性能提升,這將在新興的深度學習領域大大加速創新的步伐。”

今年3月,英特爾又在Mobileye公司進行了另一項引人注目的人工智慧收購,這是一款基於機器學習的高級駕駛員輔助系統(ADAS)的開發,其價值約為150億美元。英特爾收購的意義馬上就顯現了出來。這家晶片製造商希望在自動駕駛車輛領域佔有一席之地,也許這樣做也將自己定位為一個關鍵的機器學習硬體提供商。

在去年11月舉行的洛杉磯Automobility LA貿易展覽會上,英特爾首席執行官Brian Krzanich稱自動駕駛是現今最大的遊戲改變者,因為該公司宣佈收購Mobileye公司後已經生產了一款新的SoC、EyeQ5。

Tera每秒運算(TOPS)是用於高性能SoC的通用性能指標。每瓦TOPS可以擴展該測量來描述性能效率。每瓦TOPS越高,晶片的效率越高。深度學習TOPS(DL)是指進行深度學習相關的操作的效率。根據英特爾的基於類比的測試,EyeQ5預計將提供每瓦2.4 DL TOPS,是Nvidia的Xavier效率的兩倍多,它的效率大約是每瓦執行1 DL TOPS。

英特爾自動駕駛集團(ADG)高級副總裁兼總經理Doug Davis在接受《設計新聞》時表示,“英特爾選擇將重點放在每瓦特的DL型電腦上,因為它希望把重點放在處理器效率上,而不是其他指標。關注DL每瓦功耗是電源消耗的一個很好的指標,但是如果你考慮這個問題,它也會影響重量、成本和散熱的問題,所以我們真的覺得效率是關注的重點。”

Davis補充表示,“總是圍繞絕對性能進行大量的討論,但是當我們考慮這個問題時,應該從更實際的角度出發,因為我們考慮了不同類型的工作量。深度學習是能夠識別物件並做出決策,並盡可能快速有效地完成這一任務的關鍵。“

然而,英偉達公司已經對英特爾的資料提出了異議,尤其是考慮到EyeQ5的估計是基於模擬的,SoC將在兩年內不可用。 今天所知道的是我們宣佈的Xavier將於2018年初開始提供,相比於EyeQ5純粹的24 TOPS兩年後的模擬預測,30 TOPS的性能更高。

GPU是否註定要AI?

GPU製造商已經發現自己掌握著可能處於人工智慧革命最前沿的技術。GPU曾被認為是CPU的補充單元(許多CPU將GPU集成到GPU中以處理圖形處理),GPU已經擴展到以圖形和視頻為中心的領域之外,並進入深度學習領域,GPU製造商表示他們提供的性能遠優於CPU。

Titan V GPU

雖然GPU市場上有少數幾家公司,但似乎Nvidia更像這個技術的代名詞。根據Jon Peddie研究公司的報告,Nvidia在2017年第三季度的GPU出貨量上升了29.53%,主要競爭對手AMD和Intel都出局。AMD的出貨量增加了7.63%,而Intel的出貨量增加了5.01%。當然,這主要是由視頻遊戲市場推動的,但Jon Peddie Research的分析師認為,與加密貨幣挖掘有關的應用程式和對高端性能的需求也對出貨量有所貢獻。

對於能夠處理需要高性能的特定任務的處理器(如加密貨幣挖掘和AI應用程式)的需求正是GPU發現自己處於AI硬體對話最前沿的原因。 GPU包含數百個可同時執行數千個軟體執行緒的內核,同時比CPU更節能。儘管CPU是普遍化的並且傾向於跳躍,執行許多不同的任務,但是GPU擅長在大批量資料上一次又一次地執行相同的操作。

就在今年十二月份,Nvidia宣佈推出了一款基於PC的GPU Titan V,專為深度學習而設計。新的GPU基於Nvidia的Volta架構,該架構利用了Nvidia稱之為Tensor Cores的新型核心技術。Nvidia所做的是開發具有複雜架構,專門用於處理深度學習和神經網路計算的需求。

Titan V包含210億個電晶體,能夠提供110 teraflops的深度學習性能。 Nvidia將目標瞄準從事人工智慧和深度學習的開發人員。Titan V.公司創始人兼首席執行官Jensen Huang在一次新聞發佈會上表示,“Titan V是有史以來為個人電腦開發的最強大的GPU。我們對Volta的願景是推動高性能計算和人工智慧的外部極限。我們開發了新的處理器架構、指令、數位格式、記憶體架構和處理器連結。隨著泰坦V的出現,我們把Volta推向世界各地的研究人員和科學家手中。”

一個由張量構成的世界

提到張量的概念,那就不得不提穀歌公司了。在過去的一年,這個搜索巨頭發佈了一個名為TensorFlow的深度學習開發的已經流行的開源框架。如Google所述,“TensorFlow是一個使用資料流程圖進行數值計算的開源軟體庫。圖中的節點表示數學運算,而圖邊表示在它們之間通信的多維資料陣列(張量)。靈活的體系結構允許您使用單個API將計算部署到桌面、伺服器或移動設備中的一個或多個CPU或GPU上。”

Google的張量處理單元(TPU)

TensorFlow的機器學習應用程式庫包括面部識別、電腦視覺,當然還有其他應用程式中的搜索,在2016年的時候就已經被證明非常流行,以至於2016年英特爾一直致力於優化其處理器來運行TensorFlow。在2017年,穀歌還發佈了針對移動和Android開發者的精簡版TensorFlow。

但Google沒有讓軟體成為人工智慧野心的終點。在2016年,該公司發佈了第一代稱為張量處理單元(TPU)的新處理器。 Google的TPU是一個專為機器學習而設計的ASIC,專為運行TensorFlow而量身定制。而第二代TPU在今年五月份宣佈,據Google稱,它能夠提供高達180 teraflops的性能。

作為加拿大多倫多第44屆電腦體系結構國際研討會(ISCA)的一部分,Google於2017年6月發佈了一項研究報告,將其在資料中心部署的TPU與Intel Haswell CPU和部署在同一資料中心的Nvidia K80 GPU進行了比較, TPU平均比GPU和CPU執行速度快15到30倍。每瓦TPU的TOPS也高出約30到80倍。 Google表示,TPU正在推動其所有線上服務,如搜索、街景、Google相冊和Google翻譯。

在一份詳細介紹最新熱塑性聚氨酯(TPU)的文章中,Google的工程師們表示,早在六年前,當Google發現自己將深度學習融入越來越多的產品時,熱塑性聚氨酯的需求就出現了。Google工程師認為,“如果我們假設人們每天只使用Google語音搜索三分鐘,並且在我們正在使用的處理單元上運行深度神經網路來處理語音辨識系統,那麼我們必須加倍的增加Google的資料中心!”

Google的工程師在設計TPU時表示,他們採用了他們所說的“收縮性設計”。“這種設計被稱為收縮性的,因為資料通過晶片流動,這讓人想起心臟泵血的方式。矩陣乘法單元MXU中的特殊類型的脈動陣列針對執行矩陣乘法時的功率和面積效率進行了優化,不適合於通用計算,於是它做了一個工程折衷:限制寄存器、控制和操作的靈活性,以換取效率和更高的操作密度。”

在一些非常高端的AI應用中,TPU也已經證明了自己。 TPU是Google著名的AlphaGo AI背後的大腦,在去年擊敗了世界冠軍,引起人們對於人工智慧的關注。經過短短幾個月的訓練,AlphaGo的最新版本AlphaGo Zero就能夠將自己的能力遠遠超過人類專家。對於國際象棋(一個複雜的遊戲,但是比Go要小得多),在幾個小時內的訓練之後也能達到比較顯著的效果。

FPGA - AI競賽中的黑馬

那麼,TPU是AI的未來,對嗎?微軟認為,在可擴展性和靈活性方面,基於FPGA的解決方案可能將優於CPU、GPU或TPU提供的解決方案。

微軟的Project Brainwave以39.5萬億次浮點運算的速度運行,在英特爾層的10個fpga上運行時,它的延遲時間還不到一毫秒。

儘管基於處理器的解決方案在某種程度上由於其設計而局限於特定的任務,但是由於FPGA的靈活性和可程式設計性,所以或許可以使用FPGA來提供更容易的升級和更好的性能。根據微軟的說法,在Intel Stratix 10 FPGA上運行時,微軟的Project Brainwave以39.5 teraflops的速度執行,延時不到1毫秒。

FPGA是否為人工智慧提供最佳選擇與其他方面一樣值得商榷。微軟認為創造人工智慧專用ASIC的生產成本太高,而另一些人則認為FPGA將永遠無法完全實現專為人工智慧設計的晶片性能。

在3月份的“現場可程式設計閘陣列國際研討會”(ISFPGA)上發表的一篇文章中,一組來自英特爾加速器架構實驗室的研究人員評估了兩代英特爾FPGA(Arria10和Stratix 10)與Nvidia Titan X Pascal Titan V)處理深度神經網路(DNN)演算法。據英特爾研究人員稱:“我們的研究結果顯示,Stratix 10 FPGA的性能(TOP / sec)比Titan X Pascal圖形處理器在[矩陣乘法](GEMM)操作上的性能提高了10%、50%甚至5.4倍。在Ternary-ResNet上,Stratix 10 FPGA可以比Titan X Pascal GPU提供60%的性能提升,性能功耗比提高2.3倍。我們的結果表明,FPGA可能成為加速下一代DNN的首選平臺。”

誰戴上皇冠?

在這個特定的時間點,就整體性能而言,很難不爭論這些硬體在人工智慧領域的表現,也很難不比較巨頭們之間的表現。但是,就小編的粗淺認識來看,很多硬體並不是單純的誰取代誰的角色,可能面對不同的用戶、不同的細分領域就會有不同的選擇,

就落地的應用來說,自動駕駛汽車正在成為將人工智慧應用於更廣泛的公眾意識中,這可能是機器人、製造業、甚至娛樂領域的進步,真正推動人工智慧的發展,但這並不是為了阻斷新興應用的誕生之路。

當發展步入正軌時,它可能不是一家企業主宰人工智慧領域,未來可能會看到硬體領域的爭鬥越來越激烈,也或許是別的,時間會證明一切。