曙光和寒武紀聯手研發全球首款採用神經元計算的伺服器

10月24日， 2017中科曙光智慧峰會在青島盛大開幕。包括中國工程院原常務副院長、院士潘雲鶴，中國工程院院士、曙光公司董事長李國傑、中國工程院院士潘德爐在內的一大批專家和企業界代表參加大會。在大會上，曙光發佈了全球首款在推理應用上採用神經元計算的伺服器產品；以及能夠快速釋放計算能力的人工智慧管理平臺SothisAI。那麼，這款搭載了20片寒武紀晶片的伺服器有何獨到之處呢？人工智慧管理平臺SothisAI又用怎樣的用武之地？我們邀請了曙光公司副總裁沙超群為大家答疑解惑。

問：作為伺服器廠商，曙光為何這麼重視人工智慧？

沙超群：瞭解曙光的朋友們都知道，曙光這家公司從李院士和曆軍總裁創立之初，我們專注於計算，在過去的高性能計算、雲計算、大資料處理等通用計算，我們都是專注在計算領域，別得也幹不了，計算我們幹得還不錯。

今年國務院也印發了我國人工智慧的發展規劃，人工智慧技術是資訊產業發展的新方向，也是我們曙光所從事的高性能電腦發展的未來新的應用領域。曙光在未來大型電腦的研發和應用過程中，人工智慧也一定是最重要的發展方向。

問：曙光已經有哪些應用和產品？

沙超群：曙光在過去幾年當中，高度重視人工智慧技術和產品發展。我們已經在一些超級電腦的應用方面，大量採用了人工智慧的技術。比如新疆的雲計算中心通過超級電腦進行即時視頻圖像的分析和處理，以便為平安城市等帶來社會效益。同時，曙光的百城百行雲計算發展計畫當中，城市資料已經經過了近十年的積累，形成了比較大規模的資料量。在曙光的發佈會上，我們公佈了三款產品，分別是“PHANERON”推理專用伺服器、曙光的X860-LE全浸沒式液冷的AI訓練專用伺服器和曙光人工智慧管理平臺SothisAI。

在2016年資料中國加速計畫的會議上，曙光和寒武紀簽約了戰略合作，經過一年的時間，兩個研發團隊研發出了一款“PHANERON”推理專用伺服器，這是世界首款在推理應用上採用神經元計算的伺服器產品，這個名字的意思大概是這樣的，是取自“顯生宙”的詞頭，象徵著採用神經元進行線上推理計算。

問：這款“PHANERON”推理專用伺服器有什麼特別之處麼？

沙超群：這樣一款產品在4U空間中部署20個人工智慧前端推理模組，能夠為推理提供強大的計算支援，單位節點峰值推理計算能力達到120TFlops，還通過提高密度來降低總體伺服器的部署數量，可顯著降低項目總體投資。今天推理用的線上伺服器產品，由於它的應用模式，大概一台機器可以頂上20台通用的伺服器產品，也就是1：20，大家可以想像在成本空間的節約上，優勢非常大。

其實更讓我個人興奮的不是這款產品，而是計畫明年年底推出PHANERON2這個產品，性能提升5-6倍，那時候一台這樣的伺服器可以頂上100台通用的伺服器產品。

問：能介紹下曙光的X860-LE全浸沒式液冷的AI訓練專用伺服器麼？

沙超群：在機器學習方面，我們由於需要大量圖片深度分析，最早從提供2U，到現在是8U，一個2U的設備空間基本沒有辦法解決散熱。資料中心42U可以放20台這樣的設備，功耗是60千瓦，大概在一個櫃子裡面，500瓦的電爐子，可以放120個電爐子。風冷解決方案對該量級的散熱問題已經束手無策。

曙光的X860-LE全浸沒式液冷的AI訓練專用伺服器就是專門解決能耗和噪音的問題，我們把它浸沒在液體當中，通過蒸發把熱量帶走。這個產品有兩個特點：第一個是業界最高密度的GPU的訓練平臺。它是世界上PUE最低的訓練的伺服器產品，它的PUE能到1.02。剛剛談到了噪音的問題，這個系統是零噪音。回到PUE的問題，今天我們的資料中心大概PUE會在1.6-2.0，我們這個產品的PUE是1.02。大概算一下，一個300瓦的GPU，在製冷方面的能耗節約大概180瓦，如果現在PUE是1.6的話，一個GPU每年省電是1200元。今天很多客戶這種GPU的採購已經是2萬片-3萬片，僅僅在這一塊的節能就是巨大的，同時也節約了大概兩三千萬的運營費用。

問：曙光開發人工智慧管理平臺SothisAI的目的是什麼？

沙超群：曙光開發人工智慧管理平臺SothisAI，做這個平臺有兩個目標：第一個目標是讓AI儘量簡單化。今天做AI計算的時候，需要做大量硬體異構的配置，需要研究不同的框架，不同的框架裡要部署不同的軟體，還要進入大量的資料進行訓練，這個過程當中非常複雜，非常難用。我們的想法是讓它簡單化，容易化，調動自動化，只需要簡單配比就可以初步使用AI平臺來計算。我們希望用戶用完以後說“這就是AI，不是那麼難”，這就是我們的名字為什麼起SothisAI的原因。第二個目標就是支援更多的生態發揮好更好的性能。

問：人工智慧管理平臺SothisAI有何獨到之處？

沙超群：曙光構建的人工智慧平臺，包括硬體，軟體和服務等方面。

硬體計算平臺能支援CPU，GPU，FPGA，ASIC等不同類型的晶片，面相訓練和推理不同的應用場景做了全面覆蓋和優化，在硬體的平臺的製冷散熱方面，已經能夠支持浸沒液冷等先進技術，走在了業界前列。

在軟體方面，曙光投入了很大精力，面向不同晶片優化函式程式庫等基礎軟體環境，相比通用軟體環境有顯著的性能提升。庫的優化會大大提升我們的計算力。針對吸收矩陣、重力矩陣，針對DNN、CNN等做了很多優化，大部分的性能測試中採用我們的庫，性能可以提升20%-30%。

曙光也提供人工智慧管理平臺軟體，能整合曙光優化的性能函式程式庫，支援Caffe，TensorFlow等主流的深度學習框架，以雲的方式提供使用介面，可以簡化人工智慧環境的部署和運維，簡化業務的使用流程，也利用在高性能計算領域積累的經驗，優化底層硬體資源的調度效率，這個平臺軟體也在和傳統高性能計算和大資料技術進行整合，最終能提供一個超融合的先進計算平臺，在這方面也是領先業界的。

問：之前提到曙光的SothisAI平臺支持各種FPGA、ASIC、GPU。那麼，您認為英偉達的GPU、阿爾特拉的FPGA、中科院寒武紀這些晶片，用於人工智慧的話，有什麼差異？

沙超群：這些同類產品基本上在線上推理環境中存在競爭。

NVIDIA的GPU是傳統的推理加速產品，依賴於GPU在訓練市場的主導地位，訓練使用的小功耗GPU產品，演算法移植最簡單，通用性最好，用戶的接受度最好。

FPGA產品相比GPU，具有功耗低、可程式設計性好等優點，最為積體電路領域中一種半定制電路，既解決了全定制電路的不足，又克服了原有可程式設計邏輯器件門電路數有限的缺點，可以針對推理應用進行高效的適配，FPGA以並行運算為主，以硬體描述語言來實現，達到最優的執行效果。

中科院寒武紀推出的推理晶片，基於硬體和指令集兩個方面來適配深度學習，具有良好的技術平臺，可以利用指令集積極適配推理演算法，並且在硬體層面上發揮神經網路的最高效率。

問：曙光的智慧城市雲在引入人工智慧之後，和以往相比會有怎樣的改變？

沙超群：曙光已經運營的四十多個城市的運算中心，以前好多各種雲計算服務，底層是曙光的雲計算作業系統。而在今天的AI城市，會插入一個人工智慧調動平臺，會分裝很多架構，會提供很多標識好的資料。比如有人臉識別的應用或者語義切割的應用，可以到我們這個平臺上進行資源申請，進行你自己演算法的優化。同時你覺得這些開源的資料還不夠，你有自己專用的資料，可以把資料拿過來，採用你的資料對你的演算法進行優化，我們提供這種服務。

問：在超算上我們將眾核CPU、GPU作為加速器，那是否可以將寒武紀作為加速器，搭建專門跑人工智慧的高性能電腦？

沙超群：業內有類似的計畫。曙光預計未來幾年研製出世界上最大的地球數值類比裝置，這個裝置建設之後，國家也會要求這個裝置公開運營做公開服務，我們也想今天有大量的科學家採用深度學習的演算法，採用我們的計算資源訓練自己的很多模型和演算法去優化，未來當地球數值類比裝置開放公開服務的時候，希望有更多演算法進來，通過人工智慧和深度學習，預測和發現極端氣候和極端天氣，更好地防災減災，也能夠解密更多的地球密碼，人類的起源，讓我們探索更多的未知。

大概一台機器可以頂上20台通用的伺服器產品，也就是1：20，大家可以想像在成本空間的節約上，優勢非常大。