您的位置:首頁>科技>正文

阿裡自研AI晶片,能否解決中國“缺芯”難題?

4月19日, 有消息稱, 阿裡巴巴達摩院正在研發一款神經網路晶片——Ali-NPU, 主要運用於圖像視頻分析、機器學習等AI推理計算。 按照設計, 這款晶片性能將是目前市面上主流CPU、GPU架構AI晶片的10倍, 而製造成本和功耗僅為一半, 其性價比超過40倍。

應用上, 通過此款晶片的研發將會更好的落地在圖像、視頻識別、雲計算等商業場景中。 據阿裡達摩院研究員驕暘介紹說:“CPU、GPU作為通用計算晶片, 為處理執行緒邏輯和圖形而設計, 處理AI計算問題時功耗高, 性價比低, 在AI計算領域急需專用架構晶片解決上述問題。 阿裡巴巴此款Ali-NPU在AI領域積累了大量演算法模型優勢,

以最小成本實現最大量的AI模型演算法運算。 ”

事實上, 隨著人工智慧產業的發展, CPU、GPU、TPU、DPU、NPU、BPU……各種PU也開始爆發式出現。 那麼, 究竟這些PU在性能和使用上有何異同, 又有哪些優劣呢?

CPU:計算力佔據部分很小 擅長邏輯控制

CPU是最為普遍, 最為常見的中央處理器。 主要包括運算器(ALU)和控制單元(CU), 除此之外還包括若干寄存器、快取記憶體器和它們之間通訊的資料、控制及狀態的匯流排。 依循馮諾依曼架構, CPU需要大量空間放置存儲單元和控制邏輯, 計算能力只佔據很小的部分, 更擅長邏輯控制。

CPU結構簡化圖

GPU:計算單元數量眾多 但無法單獨使用

GPU的誕生可以解決CPU在計算能力上的天然缺陷。 採用數量眾多的計算單元和超長的流水線, 善於處理圖像領域的運算加速。 但GPU的缺陷也很明顯, 即無法單獨工作, 必須由CPU進行控制調用才能工作。

CPU、GPU微架構對比圖

TPU:高性能低功耗 然則開發週期長、轉換成本高

穀歌專門為 TensorFlow 深度學習框架定制的TPU, 是一款專用於機器學習的晶片。

TPU可以提供高輸送量的低精度計算, 用於模型的前向運算而不是模型訓練, 且能效更高。 但它的缺陷主要是開發週期長、可配置性能有限, 缺乏靈活性且轉換成本高。

DPU:可實現快速開發與產品反覆運算

國際上, Wave Computing最早提出DPU。 在國內, DPU最早是由深鑒科技提出,

是基於Xilinx可重構特性的FPGA晶片, 設計專用深度學習處理單元, 且可以抽象出定制化的指令集和編譯器, 從而實現快速的開發與產品反覆運算。

深鑒“雨燕”DPU平臺

NPU:運行效率提升 不支援大樣本訓練

NPU是神經網路處理器, 在電路層類比人類神經元和突觸, 並且用深度學習指令集直接處理大規模的神經元和突觸,

一條指令完成一組神經元的處理。 相比于CPU和GPU的馮諾伊曼結構, NPU通過突觸權重實現存儲和計算一體化, 從而提高運行效率。 但NPU也有自身的缺陷, 比如不支援對大量樣本的訓練。

BPU:比在CPU上用軟體實現更為高效 不可再程式設計

BPU是由地平線主導的嵌入式處理器架構。第一代是高斯架構,第二代是伯努利架構,第三代是貝葉斯架構。BPU主要是用來支撐深度神經網路,比在CPU上用軟體實現更為高效。然而,BPU一旦生產,不可再程式設計,且必須在CPU控制下使用。

從CPU、GPU的市場來看,已經基本被英特爾、英偉達和AMD三分天下。而在ASIC框架下的TPU,只有穀歌的體量和實力才有開發專用加速的動力。

推出DPU的深鑒科技有清華和斯坦福雙重學術背景,公司目前的兩條發展路線是:以晶片技術為主的純技術路線,以及基於技術的產品路線。其處理器做深度學習應用端,不做訓練端。目前,其深度壓縮技術可以將神經網路壓縮數十倍而不影響精度,還可以使用晶片存儲深度學習演算法模型,減少記憶體讀取次數,降低運行功耗。

去年10月,深鑒科技推出了六款AI產品,分別是人臉檢測識別模組、人臉分析解決方案、視頻結構化解決方案、ARISTOTLE架構平臺,深度學習SDK DNNDK,以及雙目深度視覺套件。

寒武紀最初是中科院從2008年開始的一研究項目,負責人為陳氏兄弟陳雲霽和陳天石,也是寒武紀科技的創始人,與他們合作研究Diannao系列的Olivier Temam是Google TPU的主架構師。2016年11月,寒武紀科技正式成立,同時推出世界首款商用深度學習專用處理器 Cambricon-AI,是一款神經網路處理器,面向手機、無人機等類手機的終端設備。

去年,一時火爆的華為麒麟970一大賣點就是集成了獨立NPU,被宣傳為世界首款手機AI晶片。確實屬實。但據瞭解,這塊NPU也並非華為的研究成果,而是來自寒武紀。對於華為來說,之所以如此重視NPU,或許和阿裡爆出新聞的心態一樣,認為集成NPU代表了人工智慧未來的發展趨勢。

去年底,地平線在創辦兩年後終於發佈首款晶片——“征程”與“旭日”。目前,這兩款處理器都屬於嵌入式人工智慧視覺晶片,分別面向智慧駕駛和智慧攝像頭。2018年CES上,英特爾和地平線還發佈了基於伯努利架構的新一代征程處理器,其發展路徑圖為:2018年,感知;2019年,建模;2020年,決策。

而因為與英特爾的合作,地平線不禁讓市場聯想到英特爾早前重金收購的Mobileye。在嵌入式人工智慧領域,Mobileye是業界領頭羊。地平線在英特爾的定位版圖是否是中國版Mobileye?但其創始人余凱的抱負是,地平線是要做中國的英特爾。

最後,談到人工智慧晶片,還是不得不提BAT。在國際四大科技巨頭都造晶片,且ARM、英特爾、英偉達等傳統晶片廠商仍然統治晶片天下的情況下,中國芯能不能發展起來,還需要看國內科技巨頭們的表現。相較而言,阿裡在三家中最為熱衷晶片佈局,上述包括寒武紀、深鑒科技均有阿裡參投。

BPU是由地平線主導的嵌入式處理器架構。第一代是高斯架構,第二代是伯努利架構,第三代是貝葉斯架構。BPU主要是用來支撐深度神經網路,比在CPU上用軟體實現更為高效。然而,BPU一旦生產,不可再程式設計,且必須在CPU控制下使用。

從CPU、GPU的市場來看,已經基本被英特爾、英偉達和AMD三分天下。而在ASIC框架下的TPU,只有穀歌的體量和實力才有開發專用加速的動力。

推出DPU的深鑒科技有清華和斯坦福雙重學術背景,公司目前的兩條發展路線是:以晶片技術為主的純技術路線,以及基於技術的產品路線。其處理器做深度學習應用端,不做訓練端。目前,其深度壓縮技術可以將神經網路壓縮數十倍而不影響精度,還可以使用晶片存儲深度學習演算法模型,減少記憶體讀取次數,降低運行功耗。

去年10月,深鑒科技推出了六款AI產品,分別是人臉檢測識別模組、人臉分析解決方案、視頻結構化解決方案、ARISTOTLE架構平臺,深度學習SDK DNNDK,以及雙目深度視覺套件。

寒武紀最初是中科院從2008年開始的一研究項目,負責人為陳氏兄弟陳雲霽和陳天石,也是寒武紀科技的創始人,與他們合作研究Diannao系列的Olivier Temam是Google TPU的主架構師。2016年11月,寒武紀科技正式成立,同時推出世界首款商用深度學習專用處理器 Cambricon-AI,是一款神經網路處理器,面向手機、無人機等類手機的終端設備。

去年,一時火爆的華為麒麟970一大賣點就是集成了獨立NPU,被宣傳為世界首款手機AI晶片。確實屬實。但據瞭解,這塊NPU也並非華為的研究成果,而是來自寒武紀。對於華為來說,之所以如此重視NPU,或許和阿裡爆出新聞的心態一樣,認為集成NPU代表了人工智慧未來的發展趨勢。

去年底,地平線在創辦兩年後終於發佈首款晶片——“征程”與“旭日”。目前,這兩款處理器都屬於嵌入式人工智慧視覺晶片,分別面向智慧駕駛和智慧攝像頭。2018年CES上,英特爾和地平線還發佈了基於伯努利架構的新一代征程處理器,其發展路徑圖為:2018年,感知;2019年,建模;2020年,決策。

而因為與英特爾的合作,地平線不禁讓市場聯想到英特爾早前重金收購的Mobileye。在嵌入式人工智慧領域,Mobileye是業界領頭羊。地平線在英特爾的定位版圖是否是中國版Mobileye?但其創始人余凱的抱負是,地平線是要做中國的英特爾。

最後,談到人工智慧晶片,還是不得不提BAT。在國際四大科技巨頭都造晶片,且ARM、英特爾、英偉達等傳統晶片廠商仍然統治晶片天下的情況下,中國芯能不能發展起來,還需要看國內科技巨頭們的表現。相較而言,阿裡在三家中最為熱衷晶片佈局,上述包括寒武紀、深鑒科技均有阿裡參投。

Next Article
喜欢就按个赞吧!!!
点击关闭提示