英特爾深度學習產品綜述：如何佔領人工智慧市場

機器之心原創

作者：Haojin Yang

參與：Jake Zhao、侯韻楚、黃小天

2017 年 2 月 9 日，機器之心技術分析師應邀參加了在 SAP 創新中心召開的英特爾創新研討會。英特爾資料中心組（Data Center Group , DCG）的成員對目前深度學習及其人工智慧產品的發展做了有關介紹。

根據本次研討會的內容，我們可以預測 CPU 硬體生產商（如英特爾）在下一場計算浪潮來襲時的發展趨勢或戰略，尤其是人工智慧的相關方面。

簡介

2017 年第一季度，英偉達資料中心收入同比增長 63%，總體收入也得到增長。這一顯著增長主要歸功於大型 IT 公司，如穀歌和亞馬遜主要基於英偉達 GPU 來加速其人工智慧雲產品的研發。相較而言，在資料中心領域處於霸主地位的英特爾僅增長了 9%。如此懸殊的差距表明，市場中有越來越多的公司正採用深度學習技術；但英特爾已經增加了在深度學習方面的投入與發展力度。本文將就英特爾近期的深度學習產品表達一些見解。

英特爾的人工智慧產品

英特爾加強了人工智慧硬、軟體領域的開發工作。英特爾已在資料中心領域發佈了 Xeon 和 Xeon Phi 處理器用於機器學習及其他高性能計算（HPC）應用的通用性案例。為了滿足對人工智慧日益增長的需求，英特爾還推出了兩個用於深入學習模型訓練和高效推理的優化產品：

訓練：英特爾 Xeon 處理器 + 英特爾深度學習引擎「Lake Crest」，「Lake Crest」具有同類之最的神經網路性能，並能提供前所未有的高頻寬互連的計算密度。

推理：英特爾 Xeon 處理器 + FPGA（ARRIA 10）。 FPGA 引擎可定制和程式設計，能提供帶有用於機器學習推理的更高 perf/w 的低延遲以及靈活的精度。該解決方案專為機器學習應用的高效推理和即時預過濾而設計。

下述章節將提供有關 Lake Crest 、英特爾 FPGA 解決方案 ARRIA 10 以及 Xeon Phi 深度學習模型訓練評估結果的更多細節。

Lake Crest

英特爾深度學習引擎「Lake Crest」是一款新型晶片產品，可實現神經網路計算的硬體級優化。與可程式設計的 FPGA 相比，硬體網路的優勢主要在於：像 Lake Crest 這樣的晶片在運行時能與代碼相適應，並且網路也會在硬體層面進行更新。 Lake Crest 具有基於架構的張量，其記憶體層次結構具有以下特點：高維度（> 2）張量是默認的資料類型；沒有應用緩存機制，由編譯器分配記憶體。這些張量可讀為轉置或定期。它始終具有 ECC 保護，且應用比 DDR4 快 12 倍的 HBM2 RAM。

Lake Crest 的另一項重要創新是資料傳輸，並擁有高頻寬互連——具有 6 個用於 3D 環面互連的雙向連結，這些連結比 PCIe 快 20 倍。 Lake Crest 的 12 個計算單元直接連接到所有其他計算單元，

其吞吐率高達每秒 100 千百萬位元組。

Lake Crest 支援用於深度模型的 16 個 FlexPoint，且聚焦於優化佔據大部分神經網路執行時間的 Mat-Mult 和 Convolution。它還支持如（A ^ 2 * 4B）+ C 這樣複雜的 GEMM 函數、自動矩陣阻塞以及部分乘積相加等。

在 Lake Crest 中設計的具體資料類型如圖 1 所示。

圖 1： Lake Crest 支援的資料類型（圖片來自英特爾）。

FlexPoint 引擎能夠實現基於 12x100Gbps interc 和 32 GB HDM2 RAM 的 50TOP。 2017 年底將推出基於深度學習平臺的 Lake Crest，而 2018 年底將推出下一代英特爾深度學習晶片「Spring Crest」，其能使用 8g winograd 實現 80-90 的 TOP。

Arria 10 FPGA

Arria 10 是英特爾目前用於機器學習的最新一代 FPGA，它的計算能力可以單精確度達到 1.5 TF， Int16 達到 3 個 TOP， Int8 達到 6 個 TOP。 2017 年末將計畫發佈下一代 FPGA——「Stratix 10」，它的計算能力將更強大，單精確度高達 9 TF，而 Int16 / 8 則會高達 18/36 TOP。

英特爾為安裝 Arria 10 FPGA 模組提供了兩種選擇：作為單獨的 PCIe 元件進行安裝，

即將來的「離散」版本；另一方面，它可被集成到在內部與處理器直接相連的 Xeon 處理器包中，並在外部與 FPGA 模組之間直接提供一個連接管道，從而實現靈活的資料訪問，這便是「集成」版本。

表 1 和 2 顯示了使用 Arria 10 FPGA 元件的 Xeon 處理器的輸送量以及能耗。（所有統計資料收集自英特爾的公開資料。）

表 1：使用 Arria 10 離散版本的英特爾 Xeon

表 2：分類任務中「集成」版本的輸送量。表中的結果基於以 224x224x3 作為輸入、1000x1 為輸出的 AlexNet 分類。

Xeon Phi Knights Mill

Xeon Phi 處理器被定義為高性能的通用機器學習應用程式。 2017 年最新發佈的是使用 Groveport 平臺的「Knights Landing」（KNL）。下一代晶片「Knights Mill」將在年末推出，它將具有以下計算功能：單精確度達到 13.8TF， VNNI 中達到 27.6TOP。 VNNI 通過使用 Int16 輸入來支持 2 倍的每秒浮點計算，並且使用 Int32 輸出可以實現與單精確度類似的精度。

圖 2 顯示了使用 MxNet 框架對各種深度模型進行推理速度測試的一些基準結果。與開箱即用的性能相比，它經過硬體級別的優化後，可在 2S Intel Xeon 處理器 E5 2699v4 上實現高達 123 倍的提速。

圖 2：對已優化的英特爾微處理器進行推理測試（本圖來自英特爾）。

英特爾推出 Knight Mill＆Groveport 平臺來優化訓練性能，該平臺在速度、記憶體以及一致性方面做了整體改進。它具有適於深度學習訓練負荷的高度分散式多節點擴展，能實現高於 KNL 2.5 倍的單精確度性能提升。分散式多節點擴展可以越過多達 72 個內核。它具有集成式 16 GB MC DRAM 的高記憶體頻寬，且具有用於大量人工智慧使用案例的 384GB 的 6 通道 DDR4 存儲能力。本地支援通用的英特爾 Xeon 程式設計，且該框架已針對開源機器學習框架的行業標準進行了優化，其單精確度峰值性能可高達 13.8TF。

據英特爾報告稱，與在 2S 英特爾 Xeon 處理器 E5 2699 v4 中開箱即用的性能相比，它能以優化為基礎，實現高達 340 倍的性能提升用於訓練 TensorFlow 中的 VGG 模型。此外，如圖 3 所示，它可以在英特爾 Xeon Phi 處理器 7250 上實現高達 273 倍的累積加速來訓練 VGG 模型。

圖 3：已優化的英特爾微處理器的累積加速（本圖來自 Intel）。

圖 4 顯示了使用英特爾 Omni Path Fabric 的 GoogleNet v1 擴展至英特爾 Xeon Phi 處理器 7250 中多達 32 個節點集群的訓練時間，圖中表明，最大擴展效率高達 97％。

圖 4：擴展訓練時間。X 軸：節點集群的數量，Y 軸：小時數（本圖來自英特爾）。

軟體及工具

軟體也是英特爾人工智慧計算基礎的重要組成部分。圖 5 顯示了英特爾在深度學習／機器學習環境中所開發的軟體庫以及工具。

圖 5：英特爾的深度學習軟體及工具（本圖來自英特爾）。

很明顯，英特爾正試圖為深度學習／人工智慧產品構建完整的計算基礎。它的深度學習平臺不僅支持所有主流的開源深度學習庫，而且專為快速充電的深度神經網路提供了更優的數學內核庫 MKL-DNN。我們把這樣的庫看作計算原語（computational primitive），但英特爾的機器學習擴展庫作為通信原語使用。

最近英特爾的研究團隊在 FPGA'17 會議上發表了一篇名為「FPGA 在下一代深度神經網路的加速中能否勝過 GPU」的論文，該論文對基於英特爾 FPGA 產品 Arria 10 和 Stratix 10 加速深度學習模型的性能提升進行了深入實驗，並相交于目前英偉達的 TitanX Pascal GPU 做出了評估。結果表明，用於深度學習時，英特爾的 FPGA 解決方案與最先進的 GPU 處理器相比更具競爭力。