「重磅」穀歌發佈TPU論文，75位聯合作者，GPU迎來最強勁對手

新智元報導

深度學習應用大量湧現使超級電腦的架構逐漸向深度學習應用優化，從傳統 CPU 為主 GPU 為輔的英特爾處理器變為 GPU 為主 CPU 為輔的結構。不過，未來相當長一段時間內，計算系統仍將保持 CPU + 輔助處理器的混合架構。但是，在協處理市場，隨著人工智慧尤其是機器學習應用大量湧現，晶片廠商紛紛完善產品、推出新品，都想成為智慧時代輔助處理器的領跑者——但問題是，誰會擔當這個角色呢？

大約在四年前，穀歌開始注意到深度神經網路在各種服務中的真正潛力，由此產生的計算力需求——硬體需求，也就十分清晰。具體說， CPU 和 GPU 把模型訓練好，穀歌需要另外的晶片加速推理（inference），經過這一步，神經網路才能用於產品和服務。

不過，當時的穀歌雖然知道自己需要一種新的硬體架構，但具體的思路還不明確。這也正是谷歌當年硬體大牛 Norman Jouppi 挖過去的原因。 Jouppi 是 MIPS 處理器的首席架構師之一，開創了很多記憶體系統中的新技術，提到微處理器設計， Jouppi 的名字幾乎無人不知。 Jouppi 在接受 The Next Platform 採訪時表示，他在三年多以前加入谷歌時手頭實際上有好幾個選擇，但他從來沒有想過最終還是走回了 CISC 設備的道路。

TPU 架構

我們當然在說穀歌的 TPU。

這款晶片在去年穀歌 I/O 大會上首次公開亮相，但相關細節一直沒有被透露。就在這周召開的體系結構頂會 ISCA 2017 上面，描述 TPU 的論文被評為最佳論文，我們也終於得以瞭解 TPU 的技術細節。在論文中，穀歌將 TPU 的性能和效率與 Haswell CPU 和英偉達 Tesla K80 GPU 做了詳盡的比較，從中可以瞭解 TPU 在推理上性能卓越的原因。

Jouppi 在接受 The Next Platform 採訪時表示，穀歌硬體工程團隊在決定採用定制 ASIC 的方法之前，在專案初期確實考慮過使用 FPGA 的方案解決廉價、高效和高性能推理的問題。 Jouppi 告訴 The Next Platform，使用 FPGA 就是看中了 FPGA 的靈活性， “容易改變/調整”，但是由於可程式設計性和其他障礙， FPGA 與 ASIC 相比在性能和每瓦性能上還是有很大的差異。 Jouppi 解釋說：“TPU 跟 CPU 或 GPU 一樣是可程式設計的。 TPU 不是專為某一個神經網路模型設計的；TPU 能在多種網路（卷積網路、LSTM模型和大規模全連接的神經網路模型）上執行 CISC 指令。

所以， TPU 是可程式設計的，但 TPU 使用矩陣作原語（primitive）而不是向量或標量。 ”

The Next Platform 評論稱， TPU 並不複雜，看上去更像是雷達應用的信號處理引擎，而不是標準的 X86 衍生架構。

Jouppi說，雖然 TPU 有很多矩陣乘法單元，但 TPU 比“GPU 在思路上更接近浮點單元輔助處理器”， TPU 沒有任何存儲程式，僅執行從主機發送的指令。

由於要獲取大量的權重並將這些權重送到矩陣乘法單元， TPU 上的 DRAM 是作為一個獨立的單元並行運行。同時，矩陣乘法單元通過減少統一緩衝區的讀寫降低能耗，也就是進行所謂的“脈動運行”（systolic execution）。

TPU 有兩個記憶體，還有一個用於存儲模型中參數的外部 DRAM。參數進來以後，從矩陣乘法單元的上層開始載入。同時，可以從左邊載入啟動，也就是“神經元”的輸出。這些都以“systolic”脈動的方式進入矩陣單元，然後進行矩陣相乘，每個週期可以做 64,000 次累積。

鑒於大多數使用機器學習的公司（除了Facebook）都使用 CPU 做推理，因此穀歌 TPU 論文將英特爾“Haswell”Xeon E5 v3 處理器和 TPU 做了對比，而且從資料可以看出，後者在多維度推理方面性能遠超前者。The Next Platform 也由此評論，難怪用慣了 X86 處理器集群做機器學習的穀歌要自己研發一款新的晶片做推理。

在穀歌的測試中，使用 64 位浮點數學運算器的 18 核 Haswell Xeon E5-2699 v3 處理器，以 2.3 GHz 運行的情況下每秒能夠處理 1.3 TOPS（每秒萬億次運算），提供 51 GB/秒的記憶體頻寬，Haswell 晶片的能耗是 145 瓦，系統（包括了 256 GB 的記憶體）繁忙時耗能 455 瓦特。

相比之下，TPU 使用 8 位元整數數學運算器，擁有 256 GB的主機記憶體和 32 GB的自身記憶體，片上記憶體頻寬 34 GB/秒，峰值 92 TOPS，推理輸送量高了 71 倍，而託管 TPU 的伺服器的熱功率為 384 瓦。

穀歌還對比測試了 CPU、GPU 和 TPU 處理不同批量（batch）大小的每秒推理輸送量。

在批量很小、數量為 16 的情況下，Haswell CPU 處理完前 99% 的回應時間接近 7 毫秒，每秒推理數為 5,482 次（IPS），相當於最大值（13,194 IPS，批量 64）的 42%，而達到峰值則用了 21.3 毫秒的時間。相比之下，TPU 可以做到在批量大小為 200 的情況下仍然滿足 7 毫秒的上限，並且 IPS 為 225,000 次，達到峰值性能的80%。TPU 在批量大小為 250 的情況下，經過 10 個毫秒就出現了前 99% 的響應。

需要指出，穀歌測試的是一個相對較早的 Haswell Xeon，隨著架構的變化和預計今夏發佈的“Skylake”Xeon E5，IPC 還會上升。此外，Skylake 是 28 核（相比 Haswell 是 18 核），Xeon 的總體輸送量也會加大（The Next Platform 的估計是提高 80%）。但即便如此，CPU 與 TPU 還是有著很大的差距。

有輿論稱，穀歌自己打造晶片，勢必對晶片製造商產生巨大影響。確實，面向機器學習專用的處理器是晶片行業的發展趨勢，而且未來其他大公司也很有可能組建晶片團隊，設計自己專用的晶片。

這後半句話值得商榷。GPU 巨頭、英偉達 CEO 黃仁勳日前告訴《華爾街日報》，兩年前穀歌就意識到 GPU 更適合訓練，而不善於做訓練後的分析決策。由此可知，穀歌打造 TPU 的動機只是想要一款更適合做分析決策的晶片。這一點在穀歌的官方聲明裡也得到了印證：TPU 只在特定機器學習應用中作輔助使用，公司將繼續使用其他廠商製造的 CPU 和 GPU。

需要指出，TPU 是一款推理晶片，因此 TPU 的出現並非是為了取代 GPU——新智元在對英偉達 CEO 黃仁勳的採訪中也提到了這一點。TPU 仍然需要結合 GPU 和 CPU 一起使用，本文在一開始也說明了，訓練神經網路模型，還是離不開 GPU 和 CPU。而對於 CPU 製造商而言，真正的挑戰是提供在考慮到能耗和效率的前提下，具有極高推理性能的晶片。

3月27日，新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開，包括“BAT”在內的中國主流 AI 公司、600多名行業精英齊聚，共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文，查閱文字版大會實錄

而且從資料可以看出，後者在多維度推理方面性能遠超前者。The Next Platform 也由此評論，難怪用慣了 X86 處理器集群做機器學習的穀歌要自己研發一款新的晶片做推理。

穀歌還對比測試了 CPU、GPU 和 TPU 處理不同批量（batch）大小的每秒推理輸送量。

點擊閱讀原文，查閱文字版大會實錄