華文網

穀歌人工智慧TPU是新瓶裝舊酒,中國80年代早有同類產品

據媒體報導,穀歌為了滿足自身運算量的需求,開發了適用於AI計算的高性能專用硬體TPU。谷歌在一篇博文中提到,其自主研發的TPU在性能上一點不輸英特爾,甚至在某些性能上還有所超越。

穀歌表示,相比類似的伺服器級Intel Haswell CPU和NVIDIA K80 GPU,TPU在AI運算測試中的平均速度要快15-30倍。更重要的是,TPU的每瓦性能要比普通的GPU高出25-80倍。此外,谷歌工程師還為TPU開發了名為CNN1的軟體,其可以讓TPU的運行速度比普通CPU高出70多倍。

雖然穀歌在對外宣傳上吹的天花亂墜,

但就和西方一些善於炒作概念,營造高科技光環的公司一樣,穀歌所謂TPU其實是新瓶裝舊酒——這款晶片仍然沿用了傳統的脈動陣列機架構,也是當今許多面向深度學習的DSP所採用的的架構。

TPU整體框架

從性能上看,確實通過裁剪運算器寬度(8位元定點)達到了非常高的理論峰值,

在大多數卷積操作上效率很好。但在部分其他類型的神經網路操作上,效率不是太高。

TPU中的收縮資料流程引擎,它是256×256陣列

必須指出的是,TPU在架構方面並沒有太多新意。在其架構公開之前,在學術界和工業界其實已經有大量類似的工作(將脈動陣列機用於處理深度學習)。
脈動陣列架構本身是個傳統技術,早在1980年代初,中科院計算所的夏培肅院士和李國傑院士就曾將脈動陣列架構用於石油勘探——計算所曾經研發過的石油勘探專用機就是採用了脈動陣列架構。將脈動陣列架構用於深度學習,其實是近年來DSP和硬體加速領域的舊瓶裝新酒。

誠然,脈動陣列架構是非常老的技術,但也是非常經典的技術,

而且穀歌在具體工程實現方面,畢竟當今的半導體技術相對於上世紀80年代有著鴻溝班的差距,因而穀歌在具體工程實現上確實相對於中國在80年代研究的石油勘探專用機要先進。

其實學術界大家都知道脈動陣列是老技術,也許正是因為脈動陣列架構是非常老的技術,因而比較成熟,穀歌採用老技術,因而在商業上風險更小。

此外,雖然學術界大家都知道脈動陣列是老技術,

但老百姓和商業界卻不懂,而這對穀歌而言就足夠了,既能夠增加高科技光環,又能以比較成熟的技術有利於商業推廣。

陳雲霽(左)與陳天石(右)

最後在說一下中科院計算所的人工智慧專用晶片寒武紀。

陳天石和陳雲霽老師的學術研究成果在2014年—2016年橫掃體系結構學術圈,在頂級學術會議上教老外說中文的Diannao系列: Diannao(電腦)是ASPLOS'14最佳論文(亞洲第一次)DaDiannao(大電腦)是MICRO'14最佳論文(美國以外國家的第一次)PuDiannao(普電腦)、ShiDiannao(視電腦)、還有指令集Cambricon等後繼工作都連中ASPLOS、ISCA。

目前,國內還沒有其他研究小組能在ASPLOS ISCA MICRO幾大旗艦級學術會議中最佳論文、最佳論文候選、評分最高論文輪著拿。

寒武紀團隊成員早期與Olivier Temam教授、Paolo Ienne教授共同發表于ISCA2015的ShiDianNao學術論文就已經討論過脈動陣列架構(Olivier Temam教授現供職于穀歌,相信Google同行也非常瞭解這方面的工作),同時MIT於2016年前後發表的Eyeriss也是類似的架構。

相對于穀歌採用了脈動陣列架構。寒武紀商用產品最終並沒有走脈動陣列機的技術路線,而是邁出了具有寒武紀特色的一條通用智慧處理器之路。

DianNao結構

DaDianNao版圖

據中國之聲《央廣新聞》報導,寒武紀深度學習處理器從2017年起獲得了中科院為期18個月共計1000萬元的專項資金支援,用於項目研發及其產業化。

寒武紀晶片

不過這筆錢是分18個月給,基本上也就給寒武紀的科研人員發發工資的水準。而且其實寒武紀現在也不缺錢,中科院給的專項資金對寒武紀來說只是錦上添花。

寒武紀晶片的板卡

據小道消息,A輪融資後寒武紀的估值已擠進中國所有AI創業公司前5。而且寒武紀的客戶包含了一串大家耳熟能詳的國內頂尖SoC Vendor和頂尖互聯網企業,創立一年就已經盈利。

下圖是ShiDianNao處理器的佈局版圖:

在頂級學術會議上教老外說中文的Diannao系列: Diannao(電腦)是ASPLOS'14最佳論文(亞洲第一次)DaDiannao(大電腦)是MICRO'14最佳論文(美國以外國家的第一次)PuDiannao(普電腦)、ShiDiannao(視電腦)、還有指令集Cambricon等後繼工作都連中ASPLOS、ISCA。

目前,國內還沒有其他研究小組能在ASPLOS ISCA MICRO幾大旗艦級學術會議中最佳論文、最佳論文候選、評分最高論文輪著拿。

寒武紀團隊成員早期與Olivier Temam教授、Paolo Ienne教授共同發表于ISCA2015的ShiDianNao學術論文就已經討論過脈動陣列架構(Olivier Temam教授現供職于穀歌,相信Google同行也非常瞭解這方面的工作),同時MIT於2016年前後發表的Eyeriss也是類似的架構。

相對于穀歌採用了脈動陣列架構。寒武紀商用產品最終並沒有走脈動陣列機的技術路線,而是邁出了具有寒武紀特色的一條通用智慧處理器之路。

DianNao結構

DaDianNao版圖

據中國之聲《央廣新聞》報導,寒武紀深度學習處理器從2017年起獲得了中科院為期18個月共計1000萬元的專項資金支援,用於項目研發及其產業化。

寒武紀晶片

不過這筆錢是分18個月給,基本上也就給寒武紀的科研人員發發工資的水準。而且其實寒武紀現在也不缺錢,中科院給的專項資金對寒武紀來說只是錦上添花。

寒武紀晶片的板卡

據小道消息,A輪融資後寒武紀的估值已擠進中國所有AI創業公司前5。而且寒武紀的客戶包含了一串大家耳熟能詳的國內頂尖SoC Vendor和頂尖互聯網企業,創立一年就已經盈利。

下圖是ShiDianNao處理器的佈局版圖: