您的位置:首頁>科技>正文

英特爾深度學習產品綜述:如何佔領人工智慧市場

機器之心原創

作者:Haojin Yang

參與:Jake Zhao、侯韻楚、黃小天

2017 年 2 月 9 日, 機器之心技術分析師應邀參加了在 SAP 創新中心召開的英特爾創新研討會。 英特爾資料中心組(Data Center Group , DCG)的成員對目前深度學習及其人工智慧產品的發展做了有關介紹。

根據本次研討會的內容, 我們可以預測 CPU 硬體生產商(如英特爾)在下一場計算浪潮來襲時的發展趨勢或戰略, 尤其是人工智慧的相關方面。

簡介

2017 年第一季度, 英偉達資料中心收入同比增長 63%, 總體收入也得到增長。 這一顯著增長主要歸功於大型 IT 公司, 如穀歌和亞馬遜主要基於英偉達 GPU 來加速其人工智慧雲產品的研發。 相較而言, 在資料中心領域處於霸主地位的英特爾僅增長了 9%。 如此懸殊的差距表明, 市場中有越來越多的公司正採用深度學習技術;但英特爾已經增加了在深度學習方面的投入與發展力度。 本文將就英特爾近期的深度學習產品表達一些見解。

英特爾的人工智慧產品

英特爾加強了人工智慧硬、軟體領域的開發工作。 英特爾已在資料中心領域發佈了 Xeon 和 Xeon Phi 處理器用於機器學習及其他高性能計算(HPC)應用的通用性案例。 為了滿足對人工智慧日益增長的需求, 英特爾還推出了兩個用於深入學習模型訓練和高效推理的優化產品:

訓練:英特爾 Xeon 處理器 + 英特爾深度學習引擎「Lake Crest」, 「Lake Crest」具有同類之最的神經網路性能, 並能提供前所未有的高頻寬互連的計算密度。

推理:英特爾 Xeon 處理器 + FPGA(ARRIA 10)。 FPGA 引擎可定制和程式設計, 能提供帶有用於機器學習推理的更高 perf/w 的低延遲以及靈活的精度。 該解決方案專為機器學習應用的高效推理和即時預過濾而設計。

下述章節將提供有關 Lake Crest 、英特爾 FPGA 解決方案 ARRIA 10 以及 Xeon Phi 深度學習模型訓練評估結果的更多細節。

Lake Crest

英特爾深度學習引擎「Lake Crest」是一款新型晶片產品, 可實現神經網路計算的硬體級優化。 與可程式設計的 FPGA 相比, 硬體網路的優勢主要在於:像 Lake Crest 這樣的晶片在運行時能與代碼相適應, 並且網路也會在硬體層面進行更新。 Lake Crest 具有基於架構的張量, 其記憶體層次結構具有以下特點:高維度(> 2)張量是默認的資料類型;沒有應用緩存機制, 由編譯器分配記憶體。 這些張量可讀為轉置或定期。 它始終具有 ECC 保護, 且應用比 DDR4 快 12 倍的 HBM2 RAM。

Lake Crest 的另一項重要創新是資料傳輸, 並擁有高頻寬互連——具有 6 個用於 3D 環面互連的雙向連結, 這些連結比 PCIe 快 20 倍。 Lake Crest 的 12 個計算單元直接連接到所有其他計算單元,

其吞吐率高達每秒 100 千百萬位元組。

Lake Crest 支援用於深度模型的 16 個 FlexPoint, 且聚焦於優化佔據大部分神經網路執行時間的 Mat-Mult 和 Convolution。 它還支持如(A ^ 2 * 4B)+ C 這樣複雜的 GEMM 函數、自動矩陣阻塞以及部分乘積相加等。

在 Lake Crest 中設計的具體資料類型如圖 1 所示。

圖 1: Lake Crest 支援的資料類型(圖片來自英特爾)。

FlexPoint 引擎能夠實現基於 12x100Gbps interc 和 32 GB HDM2 RAM 的 50TOP。 2017 年底將推出基於深度學習平臺的 Lake Crest, 而 2018 年底將推出下一代英特爾深度學習晶片「Spring Crest」, 其能使用 8g winograd 實現 80-90 的 TOP。

Arria 10 FPGA

Arria 10 是英特爾目前用於機器學習的最新一代 FPGA, 它的計算能力可以單精確度達到 1.5 TF, Int16 達到 3 個 TOP, Int8 達到 6 個 TOP。 2017 年末將計畫發佈下一代 FPGA——「Stratix 10」, 它的計算能力將更強大, 單精確度高達 9 TF, 而 Int16 / 8 則會高達 18/36 TOP。

英特爾為安裝 Arria 10 FPGA 模組提供了兩種選擇:作為單獨的 PCIe 元件進行安裝,

即將來的「離散」版本;另一方面, 它可被集成到在內部與處理器直接相連的 Xeon 處理器包中, 並在外部與 FPGA 模組之間直接提供一個連接管道, 從而實現靈活的資料訪問, 這便是「集成」版本。

表 1 和 2 顯示了使用 Arria 10 FPGA 元件的 Xeon 處理器的輸送量以及能耗。 (所有統計資料收集自英特爾的公開資料。 )

表 1:使用 Arria 10 離散版本的英特爾 Xeon

表 2:分類任務中「集成」版本的輸送量。 表中的結果基於以 224x224x3 作為輸入、1000x1 為輸出的 AlexNet 分類。

Xeon Phi Knights Mill

Xeon Phi 處理器被定義為高性能的通用機器學習應用程式。 2017 年最新發佈的是使用 Groveport 平臺的「Knights Landing」(KNL)。 下一代晶片「Knights Mill」將在年末推出, 它將具有以下計算功能:單精確度達到 13.8TF, VNNI 中達到 27.6TOP。 VNNI 通過使用 Int16 輸入來支持 2 倍的每秒浮點計算, 並且使用 Int32 輸出可以實現與單精確度類似的精度。

圖 2 顯示了使用 MxNet 框架對各種深度模型進行推理速度測試的一些基準結果。與開箱即用的性能相比,它經過硬體級別的優化後,可在 2S Intel Xeon 處理器 E5 2699v4 上實現高達 123 倍的提速。

圖 2:對已優化的英特爾微處理器進行推理測試(本圖來自英特爾)。

英特爾推出 Knight Mill&Groveport 平臺來優化訓練性能,該平臺在速度、記憶體以及一致性方面做了整體改進。它具有適於深度學習訓練負荷的高度分散式多節點擴展,能實現高於 KNL 2.5 倍的單精確度性能提升。分散式多節點擴展可以越過多達 72 個內核。它具有集成式 16 GB MC DRAM 的高記憶體頻寬,且具有用於大量人工智慧使用案例的 384GB 的 6 通道 DDR4 存儲能力。本地支援通用的英特爾 Xeon 程式設計,且該框架已針對開源機器學習框架的行業標準進行了優化,其單精確度峰值性能可高達 13.8TF。

據英特爾報告稱,與在 2S 英特爾 Xeon 處理器 E5 2699 v4 中開箱即用的性能相比,它能以優化為基礎,實現高達 340 倍的性能提升用於訓練 TensorFlow 中的 VGG 模型。此外,如圖 3 所示,它可以在英特爾 Xeon Phi 處理器 7250 上實現高達 273 倍的累積加速來訓練 VGG 模型。

圖 3:已優化的英特爾微處理器的累積加速(本圖來自 Intel)。

圖 4 顯示了使用英特爾 Omni Path Fabric 的 GoogleNet v1 擴展至英特爾 Xeon Phi 處理器 7250 中多達 32 個節點集群的訓練時間,圖中表明,最大擴展效率高達 97%。

圖 4:擴展訓練時間。X 軸:節點集群的數量,Y 軸:小時數(本圖來自英特爾)。

軟體及工具

軟體也是英特爾人工智慧計算基礎的重要組成部分。圖 5 顯示了英特爾在深度學習/機器學習環境中所開發的軟體庫以及工具。

圖 5:英特爾的深度學習軟體及工具(本圖來自英特爾)。

很明顯,英特爾正試圖為深度學習/人工智慧產品構建完整的計算基礎。它的深度學習平臺不僅支持所有主流的開源深度學習庫,而且專為快速充電的深度神經網路提供了更優的數學內核庫 MKL-DNN。我們把這樣的庫看作計算原語(computational primitive),但英特爾的機器學習擴展庫作為通信原語使用。

最近英特爾的研究團隊在 FPGA'17 會議上發表了一篇名為「FPGA 在下一代深度神經網路的加速中能否勝過 GPU」的論文,該論文對基於英特爾 FPGA 產品 Arria 10 和 Stratix 10 加速深度學習模型的性能提升進行了深入實驗,並相交于目前英偉達的 TitanX Pascal GPU 做出了評估。結果表明,用於深度學習時,英特爾的 FPGA 解決方案與最先進的 GPU 處理器相比更具競爭力。

圖 2 顯示了使用 MxNet 框架對各種深度模型進行推理速度測試的一些基準結果。與開箱即用的性能相比,它經過硬體級別的優化後,可在 2S Intel Xeon 處理器 E5 2699v4 上實現高達 123 倍的提速。

圖 2:對已優化的英特爾微處理器進行推理測試(本圖來自英特爾)。

英特爾推出 Knight Mill&Groveport 平臺來優化訓練性能,該平臺在速度、記憶體以及一致性方面做了整體改進。它具有適於深度學習訓練負荷的高度分散式多節點擴展,能實現高於 KNL 2.5 倍的單精確度性能提升。分散式多節點擴展可以越過多達 72 個內核。它具有集成式 16 GB MC DRAM 的高記憶體頻寬,且具有用於大量人工智慧使用案例的 384GB 的 6 通道 DDR4 存儲能力。本地支援通用的英特爾 Xeon 程式設計,且該框架已針對開源機器學習框架的行業標準進行了優化,其單精確度峰值性能可高達 13.8TF。

據英特爾報告稱,與在 2S 英特爾 Xeon 處理器 E5 2699 v4 中開箱即用的性能相比,它能以優化為基礎,實現高達 340 倍的性能提升用於訓練 TensorFlow 中的 VGG 模型。此外,如圖 3 所示,它可以在英特爾 Xeon Phi 處理器 7250 上實現高達 273 倍的累積加速來訓練 VGG 模型。

圖 3:已優化的英特爾微處理器的累積加速(本圖來自 Intel)。

圖 4 顯示了使用英特爾 Omni Path Fabric 的 GoogleNet v1 擴展至英特爾 Xeon Phi 處理器 7250 中多達 32 個節點集群的訓練時間,圖中表明,最大擴展效率高達 97%。

圖 4:擴展訓練時間。X 軸:節點集群的數量,Y 軸:小時數(本圖來自英特爾)。

軟體及工具

軟體也是英特爾人工智慧計算基礎的重要組成部分。圖 5 顯示了英特爾在深度學習/機器學習環境中所開發的軟體庫以及工具。

圖 5:英特爾的深度學習軟體及工具(本圖來自英特爾)。

很明顯,英特爾正試圖為深度學習/人工智慧產品構建完整的計算基礎。它的深度學習平臺不僅支持所有主流的開源深度學習庫,而且專為快速充電的深度神經網路提供了更優的數學內核庫 MKL-DNN。我們把這樣的庫看作計算原語(computational primitive),但英特爾的機器學習擴展庫作為通信原語使用。

最近英特爾的研究團隊在 FPGA'17 會議上發表了一篇名為「FPGA 在下一代深度神經網路的加速中能否勝過 GPU」的論文,該論文對基於英特爾 FPGA 產品 Arria 10 和 Stratix 10 加速深度學習模型的性能提升進行了深入實驗,並相交于目前英偉達的 TitanX Pascal GPU 做出了評估。結果表明,用於深度學習時,英特爾的 FPGA 解決方案與最先進的 GPU 處理器相比更具競爭力。

Next Article
喜欢就按个赞吧!!!
点击关闭提示