獨家爆料｜華為五年前已佈局AI晶片，寒武紀團隊註定是最優選擇

上週六， DT 君在柏林 IFA 現場深度報導了華為最新發佈的移動端 AI 晶片。此後， DT 君獨家專訪了深度參與麒麟 970 方案設計的一位相關人士，但這位相關人士拒絕在文章中透露其姓名及身份。

圖丨華為麒麟970

這位相關人士表示，麒麟 970 整合NPU（Neural Processing Unit，神經處理單元）構想早在五年前就已經開始醞釀。

就當初的情況而言，產業界已經逐漸看到 CPU 的應用瓶頸，而 GPU 雖然也開始參與計算工作，但其主要的顯示工作隨著解析度的提高而負擔不斷加重，所以要讓這個已經分身乏術的架構繼續增加負荷，對整體性能以及功耗表現也是會產生負面影響。

可以說，為追求更高的應用效率，以及更好的功耗表現，只讓 CPU 或 GPU 架構參與計算已經遠遠不夠滿足需求。

事實上，當初的主流移動晶片架構也已經不會只內建此兩種架構，而多半會增加額外的 DSP 單元或者是 ISP 架構，不僅分擔主系統的沉重計算負擔，

也因為讓不同類型的計算工作可以擺到更適合的計算架構上，整體功耗也有了明顯的改善。

可以說， AI 正是基於同樣的概念：讓適合的架構來做適合的工作，效率才會得到提高。

圖丨餘承東展示麒麟970

這位相關人士對 DT 君表示，華為在當時就決定了未來 AI 相關計算，

將會以專用架構的設計方式進行，這就好比繪圖工作會交給 GPU 而不是 CPU 是一樣的道理。

寒武紀的生態經營和架構優勢贏得華為青睞

當然，以華為旗下海思的晶片設計功力，如果要從無到有設計出專用的 NPU 單元，也不是不可能的事情——此類 NPU 架構單純，

設計難度也不會比 CPU 更高，但問題出在生態方面。

這位相關人士表示，如果完全自主開發，從無到有的經營生態，華為有可能在未來方案推出時，缺乏市場開發者以及相關生態的支持，恐怕結果只會是事倍功半。

眾所周知，寒武紀的前身是中國科學院計算技術研究所下的一個課題組，由陳雲霽、陳天石教授領導。

該課題組早在 2008 年就已經開始研究神經網路演算法以及晶片設計。寒武紀第一代方案在 2012 年推出， 65nm 工藝下功耗為 0.485W，面積 3.02mm²。平均性能超過主流 CPU 核的 100 倍，但面積和功耗僅為 1/10，表現相當驚人。

圖丨寒武紀1A處理器（Cambricon-1A）

不過，當初寒武紀有個非常直白的命名代號，叫做 DianNao，就是中文拼音的“電腦”——顧名思義就是拿來做計算工作的、用電的“大腦”。當初，這個命名並不是中國人的主意，而是研究團隊中法國人的建議——不用當時已經爛大街的神經網路晶片之類的命名，反其道而行用中文取名，外國人反覺得十分高大上，相當有趣。

中科院在 DianNao 的基礎上開發出 DaDianNao（第二代，功能增強）、PuDianNao（第三代，普電腦，通用型機器學習晶片）、ShiDianNao（視電腦，圖像識別處理器）、DianNaoYu（電腦語，神經網路指令集）等延伸規格，針對不同應用或目的特化，也看得出研究團隊對命名規則的堅持。

這位相關人士對 DT 君表示，寒武紀實際上是基於對整個軟硬體優化的平臺，擁有成熟的硬體，以及軟體介面設計，生態支援能力絕佳，且因為智慧財產權完全自有，不怕受制於人。也因此，華為一方面為了節省成本，一方面又要有足夠競爭優勢的架構設計，考量二者得出的唯一解答：就是寒武紀了。

圖丨寒武紀科技

NPU到底有多強大？

NPU 本身可達到 1.92 TFLOPS 的半精度（16bits）計算能力，以 IFA Keynote 上提到的應用案例為例，使用 NPU 可在一分鐘內辨識超過兩千張圖片。換句話說，每秒可辨識超過 30 張圖片，這對於需要及時分析的場景識別或者是合成，所需要的資料分析，已經可以達到幾乎即時的地步。

而就華為給出的 25 倍速度，50 倍效率推算，該 NPU 功耗全負載大約只有 CPU 的一半，如果以計算效率/功耗換算，大概是 0.8 TFLOPS/W，如果以 NVIDIA 的 V100 方案作比較，V100 約為 0.4 TFLOPS/W。

可見，麒麟970內建的 NPU 效率之高了。

從雲端到本地端硬體的AI應用

DT 君在之前的報導分析中也提及，雲端性能強大，學習快速，但學習得出來的模型是通用模型，很難針對小眾有訂制化的調整，並滿足消費者的應用場景。

但過去本地端硬體性能不足，雖然可通過雲端學習，但資料這麼一來一往，效率極低，無法做到即時處理。若本地端硬體擁有強大的 AI 學習能力，那麼就不需要把資料上傳到雲端，直接在本地端處理即可，效率更高，且更能確保資料的安全與隱私。

這位相關人士表示，環顧業界，其實不是只有華為在做終端的 AI 計算工作，但華為提出的方案是以能夠實現快速規模化，並以成熟的商業思維為基礎。其他競爭業者，比如說高通或蘋果，也都在各自的技術領域有所成就。

然而，這個市場目前才處於剛剛在醞釀的時期，所以根本也不存在什麼競爭問題。如果產業競爭者能夠共同把餅做大，讓生態更成熟，其實整個 AI 的市場規模足以撐起許多大型企業，而華為搶先卡位，自然是為了屆時能夠處在一個相對優勢的市場地位。

但任何事物的發展都需要時間，所以只有把眼前的移動生態先做好，未來才能夠實現對其他應用場景的佈局。

那麼生態系統的支援如何拓展？不同架構是否會衝突？

當然，目前業界採取的 AI 加速晶片設計，在結構和理念上都各有不同，計算特性也不一致，但這名相關人士表示，其實也不用擔心未來會有不同架構各據山頭，導致生態撕裂、餅做大前先起內訌的狀況出現。

由於目前主流作業系統（包括Windows、Linux或Android）都已經支援了針對終端 AI 計算的相關開放規範，也提供了共同的軟體介面，從而藉以接入各種不同架構的 AI 加速晶片。

未來 AI 加速晶片的設計會有標準功能，也會有作為差異化速求的額外附加功能，前者透過一般標準介面就可存取，後者也同樣是透過標準介面，但只需要小幅修改開發者端的程式碼即可取用，不會造成業界的混淆。

移動應用是短期目標，未來將打生態戰拓廣其他領域

這位相關人士也表示，華為在 IFA 上的應用方向其實是短期目標，由於手機生態成熟，也容易接受新技術的導入，而把 AI 加速能力放在手機方案上，最有機會得到回報。

就當前的三大應用方向而言，包含視覺處理、AR 以及自然語言，都是近來最熱門的高端智慧手機應用發展方向，如果華為能夠用更低的功耗，更好的效率來處理好這些事情，一來可以提升品牌價值，創造更高的利潤，二來熟悉相關終端 AI 處理技術之後，也可以把這些方案拓展到其他智慧應用上，而不是只有手機而已。

這位相關人士也強調，華為內部也已經有下一個三年計畫，針對未來 AI 技術的演進，配合市場應用的需要來進行改善和微調，並隨著麒麟晶片的世代更替來推新架構。

然而，雖然目前手機上的 AI 方案主要都著眼於 Inference（推理），而 Learning（學習）的部分則較少被提及。但憑藉 NPU 的導入，一旦性能足夠之後，要做到小規模的學習也不是不可能的事情，這部分與個人化的使用體驗息息相關，各大廠都不會輕易放過這塊大餅。

初期以高端方案佈局NPU應用，未來將可能打入中端市場，擴大生態的發展

麒麟 970 作為第一代整合 NPU 的應用處理器晶片，定位最高端，也不吝於用最好的工藝，搭最頂尖的計算核心，但考慮到未來市場的走向，AI 應用一定會普及化、平民化，所以未來在相關 AI 晶片的佈局規劃上，肯定會往中端，甚至低端的方向走，但是在 NPU 的規模方面恐怕就會有所調整，一方面是成本考量，一方面也是產品定位問題。

目前，華為正在積極和協力廠商軟體發展商合作，希望將整個生態基礎快速擴大，這方面也不會僅止於 IFA 上所公佈的三大應用方向，而是會鼓勵產業合作夥伴積極嘗試，華為也會盡力協助合作廠商做出他們想要的 AI 應用。

這位相關人士表示，麒麟 970 的發表只不過是短期指標，長期來看還有不少需要加強的地方，但華為至少已經踩出第一步了。雖不能說就已經是立於不敗之地，但至少快了競爭對手一些，也讓華為可以提早思考下一步的佈局。

功能增強）、PuDianNao（第三代，普電腦，通用型機器學習晶片）、ShiDianNao（視電腦，圖像識別處理器）、DianNaoYu（電腦語，神經網路指令集）等延伸規格，針對不同應用或目的特化，也看得出研究團隊對命名規則的堅持。