華文網

深鑒科技完成4000萬美金新一輪融資,螞蟻金服三星領投

(《麻省理工科技評論》中英文版APP現已上線,年度訂閱用戶每週直播科技英語講堂,還有科技英語學習社區哦~)

過去美國的矽谷借著電晶體、半導體站到世界科技的中心,不過,現在由人工智慧(AI)發動的新一代半導體晶片大戰,

中國企業特別是創業公司,已經是不容忽視的角色了。

當 AI 成為眾人追尋的新邊疆後,各式各樣的商機跟著顯現,其中一個就是半導體,昨日在台積電舉辦的 30 周年大會上,科技大佬們的話題始終離不開人工智慧,

不過要讓 AI 應用執行的又快又好,傳統的 CPU 恐怕難以滿足,而這恰恰給了新創公司一個大好的機會:要從根本上改變電腦的運作方式,就得開發更適合深度學習等演算法的新晶片架構。

圖丨在昨日舉行的 30 周年慶論壇中,台積電邀集了蘋果、英偉達、高通、ARM、博通、ADI和ASML等主要合作夥伴,

一起暢談半導體產業的下個 10 年

現在不僅矽谷已經重新興起了一股新的“矽公司”誕生潮,將場景拉到中國,更是有過之而無不及。“在 AI 晶片的戰場中,中國創業公司堪稱是熱鬧非凡!”研調機構 CB Insights 相當生動的描繪這一個正在蓬勃發展的局面,晶片創業公司在今年的募資金額有望達到 16 億美元,比起 2016 年的 13 億美元、 2015 年的 8.2 億美元增加不少。但在這之前,

晶片創業公司被視為“有毒”,風投們生怕一碰就受傷,會有此巨大的轉變就是他們從 AI 晶片看到了龐大的商機。

中國一直以來積極推動半導體自主化,現在看來,“中國芯”這個目標極有可能率先在 AI 領域實現。而有一家新創公司,讓全球知名的 IC 設計公司聯發科、Xilinx、以及三星願意掏錢投資,甚至放話要挑戰 NVIDIA 的 TensorRT,這就是深鑒科技(DeePhi Tech)。

今天下午,深鑒科技在北京召開新品發佈會,首次展示了深鑒的一系列全新產品,包括基於深鑒DPU平臺的一站式智慧 IPC 解決方案、視頻結構化方案,面向DPU平臺的深度學習開發套件DNNDK等。

圖丨深鑒科技 2017 新品發佈會

同時,深鑒科技也正式公佈完成 A+ 輪融資。此次融資總額約 4000 萬美元,由螞蟻金服與三星風投領投、招商局創投與華創資本跟投。

本輪融資一部分將繼續用於安防和大資料領域的產品開發和市場銷售,落地更多安防監控的終端產品和服務。

據深鑒科技 CEO 姚頌向 DT 君表示,螞蟻金服的戰略資源注入,會幫助深鑒進一步開拓包括金融在內的更多應用場景;與三星之間,則側重於存儲等方面的合作,為 AI 晶片打造以深度學習處理器為核心的智慧化解決方案和高效的整體系統,以便多領域拓寬和產品落地,加速深鑒科技邁進商業化階段。

圖丨深鑒科技 CEO 姚頌

本輪融資跟投方之一、華創資本合夥人熊偉銘先生向DT君表示:“深鑒科技在稀疏計算領域的研究是世界領先的,他們在FPGA領域的口碑也得到了國際大廠的認可,而且從產品演進角度考慮更加容易走向ASIC應用,所以我們非常看好深鑒在人工智慧領域的發展。”

憑藉深度壓縮演算法在競爭中成功突圍

在深度學習領域,過去一直都是由 GPGPU 架構領跑市場的發展,但如今 FPGA 和基於 TPU 架構的加速方案也不斷冒出頭,這些產品不約而同的具備可程式化的能力以及極佳的計算效能。然而,對 AI 產業而言,計算硬體最終效率都會因為彼此學習而走向一致,那麼決定整體方案優劣的關鍵因素何在?答案就是軟體環境了。

深鑒作為近兩年最受矚目的 AI 創業公司,發佈了不少硬體計算架構,也打進了不少應用環節中,然而深鑒之所以被格外重視,並非僅靠這些硬體方案而已,其重點在於基於完全自主的深度壓縮演算法。

這個演算法有多重要?要知道目前 AI 分成雲端和終端,當然還有部分邊緣計算,這些資料的收集,模型的建立、存儲,到把模型傳送到應用終端上,其間需要多少存儲空間,以及消耗多少頻寬,相較於計算硬體本身的固定支出,這些變動成本累積起來只會更龐大,且模型容量因為存在太多不必要的資訊,傳輸過程會額外消耗不少時間,即便只是做個終端的簡單 AI 模型更新,都會讓消費者感到漫長無比。

所以深鑒的核心概念就是,通過壓縮法把神經模型中的冗餘部分去除,幫模型大幅瘦身,這樣一來可以減輕對頻寬的傳輸負擔,二來降低模型存儲的空間需求,對於現有的網路環境,以及雲端服務設備,都可大幅減輕相關的營運與維持成本。

另外,深鑒也配合專利演算法開發相關深度學習方案硬體,包含視覺辨識平臺、語音辨識平臺,以及針對 CNN 計算的 Aristotle 平臺,通過片上存儲的技術,來存放壓縮過後的模型,減少對記憶體的讀取,不僅可大幅降低功耗,同時也能強化效能表現。

揭露最新進展

深鑒在北京時間 10 月 24 日下午舉辦的發表會上,公佈了其在深度學習領域的最新進展,發表了多款包含圖像識別以及語音辨識的新方案。

圖丨深鑒三大核心競爭力

圖丨憑藉深度壓縮能力,深鑒可以把深度學習應用推廣到更邊緣的計算終端裡

圖丨深度壓縮的特性

圖丨 DNNDK 是國內首款針對深度學習開發環境的 SDK

圖丨人臉檢測識別模組,可以讓打造人臉識別相機更簡單

圖丨 DP-2100-F16 則是針對性能需求較高的大批量人臉識別計算方案

圖丨 DP-2100-O16 則是作為較”通用”的視頻結構化分析計算方案

圖丨全新的 CNN 處理 Aristotle 平臺

圖丨語音辨識加速方案,目前已經在 AWS workplace 上線

為了應對深度學習所針對的各種越來越複雜的資料類型和量級,各家廠商的深度學習計算硬體在本身計算能力的強化之餘,重點幾乎都擺在系統本身的頻寬改善上,比如說使用的記憶體從 DDR3 升級到 DDR4,而且從雙通道增加到更多通道,亦或者是在計算晶片上集成了 HBM 記憶體。

當然,這種尋常硬體發展思維下的做法本無可厚非,然而,這麼一來不但成本增加,二來功耗也變得更難看,且更重要的是,很多時候瓶頸不是在系統計算核心的部分,而是來自於資料傳輸的過程,也就是說,這些硬體廠的作法並沒有對症下藥,反而在某種程度上加重了病情。

例如,提供 FPGA 邊緣計算服務的企業常會面臨幾個挑戰,不論是在學習的過程,或者是學習後的模型建立,很多時候都卡在頻寬上,這會造成兩個結果,一個就是在學習的過程中,系統來不及把資料喂給計算硬體,導致計算硬體空轉。第二個是學習完建立的模型非常龐大,不僅提高了存儲的成本,也增加系統傳輸的負擔,模型很難被下放到一般儲存空間有限的智慧終端機硬體,限制了應用可能性。

也正因為此,“未來深度學習的應用成敗關鍵,就在於有沒有好的壓縮演算法可以降低頻寬的負擔。”深鑒科技 CEO 姚頌一語道破。

壓縮演算法帶來效能提升,比換硬體架構更划算

圖丨在不同網路下的性能比較

如果可以把模型直接壓縮到幾十分之一,權重數量減少到三分之一,那就意味著你可以減輕頻寬負載到數十分之一,並同時把性能提高到 3 倍。目前市場上的 AI 計算硬體,鮮少有企業敢宣稱自家相鄰兩代的計算硬體性能在同等晶片/計算密度下,可以有 3 倍性能提升。但是,深鑒單純借由壓縮演算法的導入,就可大幅改善現有計算硬體的效率,這對於業界而言,帶來的影響是革命性的,因此深鑒甚至被譽為是中國版英偉達。

圖丨物體識別的效率並不因為壓縮的過程而有明顯減損,但可省下九成的模型存儲空間

英偉達開創了深度學習時代,而深鑒則是革新了深度學習的模型建立邏輯,狠狠踩破了傳統計算硬體的發展思維。

這個演算法倒底強在哪裡?

這個演算法是由深鑒科技的聯合創始人韓松博士所發明,借由稀疏化來加速深度學習的過程,並且大幅為學習後的模型瘦身。其演算法結構用上了剪枝(Pruning),量化(Quantization),權重共用(WeightsSharing)以及霍夫曼編碼(HuffmanEncoding)等深度學習專用壓縮技術。

圖丨深鑒的壓縮演算法擁有不同的細微性設定,可針對不同規模的學習模型自我調整調整出最佳設定

類神經網路就好像人類的大腦一樣,每個神經元能連結其他神經元的數量有限——也就是說,當類神經網路在“思考”的時候,其實是包含了很多沒有任何意義的冗雜資訊,以及對結果判斷沒有影響的權重,而最簡單的作法,就是為這些權重的絕對值設立一個閾值,只要小於這個被預先定義的範圍,我們就直接把相關數值捨棄,只保留絕對值較大權重對應的連接。

圖丨通過 DECENT 神經網路壓縮工具可在不損失演算法精度的前提下,將網路模型的計算量和規模壓縮幾分之一到幾十分之一

憑藉這種壓縮邏輯,最終產生的模型規模可獲得大大的縮減,不僅改善頻寬佔用,同時也能強化後端平臺使用此模型的 AI 應用執行效能。當然,韓松所發明的這套演算法擁有專利,雖然業界要避開專利發展類似演算法不是不可能,但難度非常高,且前面還有深鑒這堵高牆存在。

DNNDK 直接對標英偉達的 TensorRT

圖丨深鑒的 DNNDK 借由更有效率且更彈性化的開發環境,解決開發者在產品開發上的問題

深鑒之所以被稱為中國版英偉達的另一個原因,就是在深度學習的開發 SDK 方面,直接和英偉達才剛發佈不久的 TensorRT 打擂臺。

TensorRT 作為探索 GPU 計算潛力的必備軟體工具,不僅設計上簡單易用,且能夠將深度學習中的推理演算法更好的發揮出來,作為英偉達佈局深度學習的第二個階段,那就是把 GPGPU 從單純學習,增加推理計算應用,其重要性不言自明。

那麼 DNNDK 又是怎麼回事?這套 SDK 是深鑒針對自行發展的 AI 異構計算平臺 DPU(Deep-learning Processor Unit)所推出,提供全自動的壓縮與編譯工具鏈等流程的支援,涵蓋了神經網路推理(Inference)階段從模型壓縮、異構程式設計、編譯到部署運行的全流程支援,説明深度學習演算法工程師和軟體發展工程師輕鬆利用 DPU 的深度學習計算能力,實現 AI 計算負載的加速。

圖丨 DNNDK 與自家 DPU 平臺緊密結合,帶給業界更高效,且一致性高的開發環境

舉例來說,依靠 DNNDK 提供的羽量級 C/C++ APIs,開發一個 ResNet50 圖像分類應用,大概只需要兩百行左右的代碼量,其中與 DPU 程式設計相關的代碼只有五十行左右,大大減輕了程式開發者的工作負擔。當然,最重要的壓縮功能,DNNDK 已經做到全自動化的地步,完全不需要人力介入。

目前, DNNDK 已經支援了主流的 Caffe 框架神經網路模型,另外對 TensorFlow 和 MXNet 框架的支援很快也會在後續的改版補上。

吸引業內巨頭三星、聯發科等大咖投資

正因為深鑒的定位極為特殊,剛好又站在 AI 計算生態興起的風口上,從創立之初就極受關注。

聯發科和三星同樣都對 AI 的應用和技術發展有著濃厚的興趣,尤其是三星,其 Bixby 以及延伸出來的自然語音服務體系,已經貫穿整個三星企業的核心產品,但尷尬的是,三星還沒有自己的終端 AI 計算方案,雖然已經開發一段時間,但是看到蘋果的神經引擎,以及基於寒武紀的華為 NPU 在 AI 計算效能上技驚四座,維持閉門造車的作法恐怕不能再和這些方案競爭。

也因此,為了在相關的 AI 終端能夠卡到更好的位置,擁有絕佳專利的深鑒開發方案就成為首選。三星風投並沒有加入深鑒 5 月的 A 輪募資,相反的,是在 8 月以個別投資的方式加入深鑒的股東行列,目前投資金額不明,但預估不會少於 A 輪募資中幾大首要投資者。而值得一提的是,深鑒也是三星風投對外投資的第二家 AI 方案公司,可見其對深鑒的重視程度。

聯發科的處境和三星有點類似,同樣是想通過移動方案加入 AI 計算能力來提升整體方案的競爭力,並且希望能擴及到更多的產品應用。但與三星不同的是,聯發科的 AI 發展基礎相當薄弱,目前該公司也還沒有任何 AI 服務形成生態。因此對於聯發科而言最快的方法,就是導入目前業界已經被普遍使用的 AI 架構,直接取用現成的生態。

值得關注的是,深鑒目前在語音與圖像識別方面已經擁有不少客戶,相關的開發資源也算得上豐富,若直接集成深鑒的 AI 技術,對於往後方案的競爭力,以及提升方案的應用廣度上將有正面幫助。雖然聯發科在 AI 技術領域還沒有太顯眼的結果,但聯發科在其汽車方案的圖像識別技術上,正是選擇了深鑒作為合作物件。

當然,除了三星風投和聯發科以外,Xilinx 是另一個重要的核心支持者,這家 FPGA 方案公司在深鑒開創之初就已經瞭解到其應用上的潛力,因此 Xilinx 不但在方案供應上與深鑒有相當緊密的合作,並且還借助深鑒的深度壓縮演算法,改善市場競爭力。

深鑒、地平線以及寒武紀

DT 君用簡單的描述來區分這三家方案公司,深鑒的團隊多由清華出身,特色是用專利深度壓縮帶領其 DPU 方案打入市場,其強大之處在於借用壓縮手段,可以把 AI 的推理判斷帶入更多、更細微的終端應用。雖然目前是基於標準 FPGA 架構,但不久後也會推出自己的 ASIC,藉以進一步優化性能與功耗表現。

地平線則是在應用的演算法上有其獨到之處,尤其是針對自動駕駛的視覺判斷演算法上,可達到低功耗與高效能表現。地平線的團隊是從百度出來,著眼於演算法加上自有晶片的開發,但市場面向較深鑒更有針對性,目前主要業務目標是針對汽車 ADAS 或自動駕駛需要的視覺判斷方案進行開發,與視覺判斷相關的智慧家居、安防也有涉獵,並於日前宣佈完成由 Intel Capital 領投的 A+ 輪融資。

而搶下全球 AI 晶片第一隻獨角獸封號的寒武紀,定位比較特殊,主打高“通用性”的深度學習方案,與前兩者“針對性”較高、方案只能一個蘿蔔一個坑的作法不同。由於寒武紀投入開發的時間較早,目前主流的深度學習標準幾乎都有支持,且雖然強調通用,但其理論性能非常強大,與國外方案相較之下甚至有過之而無不及,現階段最為人所知的應用案例,就是華為在其最新的高端手機方案麒麟 970 中集成了寒武紀的 NPU 計算單元。

由於三者針對的市場領域各有不同,所以 DT 君也不做技術優劣的區分,事實上,硬要比的話只會落入關公戰秦瓊的尷尬局面。總之,這三家廠商都在各自的領域成功打下一片江山,技術層次與市場競爭者相較之下,毫不落後。

圖丨三家強勢崛起的中國 AI 晶片公司

自 2016 年 2 月成立至今,深鑒科技得到了來自金沙江創投、螞蟻金服、三星風投、聯發科、Xilinx、華創資本、高榕資本等多家重量級機構的注資,成為國內發展最快的 AI 整體解決方案創業公司之一。

在各家深度學習方案先後崛起的情況下,深鑒方案依靠著深度壓縮演算法,著實卡在一個相對有利的位置,憑藉這個演算法,有機會達成他們賦予萬物智慧這個遠大目標,但光靠一個成功的演算法還沒辦法成就偉大的事業,深鑒在方案的多樣化,以及開發環境支持的完整性其實也還有改善空間。

但作為一家成立不過兩年的公司,深鑒獨特的技術切入角度,的確給全球 AI 產業發展造成思維上的巨大衝擊,DT 君也樂見深鑒的崛起能為中國 AI 產業帶來更好的激勵作用,甚至如同當初英偉達帶起 AI 計算革新,由我們”中國英偉達”掀起下一波 AI 產業的革命。

而深鑒科技對此也信心滿滿,深鑒科技 CTO 單羿在發佈會上所說:“深鑒科技有信心引領前沿技術,希望能助力中國人工智慧行業實現彎道超車。而此輪融資的完成,將為深鑒產品研發與市場推進注入強大動力,實現深鑒科技在人工智慧領域的穩固發展,加速完成市場佈局。”

以便多領域拓寬和產品落地,加速深鑒科技邁進商業化階段。

圖丨深鑒科技 CEO 姚頌

本輪融資跟投方之一、華創資本合夥人熊偉銘先生向DT君表示:“深鑒科技在稀疏計算領域的研究是世界領先的,他們在FPGA領域的口碑也得到了國際大廠的認可,而且從產品演進角度考慮更加容易走向ASIC應用,所以我們非常看好深鑒在人工智慧領域的發展。”

憑藉深度壓縮演算法在競爭中成功突圍

在深度學習領域,過去一直都是由 GPGPU 架構領跑市場的發展,但如今 FPGA 和基於 TPU 架構的加速方案也不斷冒出頭,這些產品不約而同的具備可程式化的能力以及極佳的計算效能。然而,對 AI 產業而言,計算硬體最終效率都會因為彼此學習而走向一致,那麼決定整體方案優劣的關鍵因素何在?答案就是軟體環境了。

深鑒作為近兩年最受矚目的 AI 創業公司,發佈了不少硬體計算架構,也打進了不少應用環節中,然而深鑒之所以被格外重視,並非僅靠這些硬體方案而已,其重點在於基於完全自主的深度壓縮演算法。

這個演算法有多重要?要知道目前 AI 分成雲端和終端,當然還有部分邊緣計算,這些資料的收集,模型的建立、存儲,到把模型傳送到應用終端上,其間需要多少存儲空間,以及消耗多少頻寬,相較於計算硬體本身的固定支出,這些變動成本累積起來只會更龐大,且模型容量因為存在太多不必要的資訊,傳輸過程會額外消耗不少時間,即便只是做個終端的簡單 AI 模型更新,都會讓消費者感到漫長無比。

所以深鑒的核心概念就是,通過壓縮法把神經模型中的冗餘部分去除,幫模型大幅瘦身,這樣一來可以減輕對頻寬的傳輸負擔,二來降低模型存儲的空間需求,對於現有的網路環境,以及雲端服務設備,都可大幅減輕相關的營運與維持成本。

另外,深鑒也配合專利演算法開發相關深度學習方案硬體,包含視覺辨識平臺、語音辨識平臺,以及針對 CNN 計算的 Aristotle 平臺,通過片上存儲的技術,來存放壓縮過後的模型,減少對記憶體的讀取,不僅可大幅降低功耗,同時也能強化效能表現。

揭露最新進展

深鑒在北京時間 10 月 24 日下午舉辦的發表會上,公佈了其在深度學習領域的最新進展,發表了多款包含圖像識別以及語音辨識的新方案。

圖丨深鑒三大核心競爭力

圖丨憑藉深度壓縮能力,深鑒可以把深度學習應用推廣到更邊緣的計算終端裡

圖丨深度壓縮的特性

圖丨 DNNDK 是國內首款針對深度學習開發環境的 SDK

圖丨人臉檢測識別模組,可以讓打造人臉識別相機更簡單

圖丨 DP-2100-F16 則是針對性能需求較高的大批量人臉識別計算方案

圖丨 DP-2100-O16 則是作為較”通用”的視頻結構化分析計算方案

圖丨全新的 CNN 處理 Aristotle 平臺

圖丨語音辨識加速方案,目前已經在 AWS workplace 上線

為了應對深度學習所針對的各種越來越複雜的資料類型和量級,各家廠商的深度學習計算硬體在本身計算能力的強化之餘,重點幾乎都擺在系統本身的頻寬改善上,比如說使用的記憶體從 DDR3 升級到 DDR4,而且從雙通道增加到更多通道,亦或者是在計算晶片上集成了 HBM 記憶體。

當然,這種尋常硬體發展思維下的做法本無可厚非,然而,這麼一來不但成本增加,二來功耗也變得更難看,且更重要的是,很多時候瓶頸不是在系統計算核心的部分,而是來自於資料傳輸的過程,也就是說,這些硬體廠的作法並沒有對症下藥,反而在某種程度上加重了病情。

例如,提供 FPGA 邊緣計算服務的企業常會面臨幾個挑戰,不論是在學習的過程,或者是學習後的模型建立,很多時候都卡在頻寬上,這會造成兩個結果,一個就是在學習的過程中,系統來不及把資料喂給計算硬體,導致計算硬體空轉。第二個是學習完建立的模型非常龐大,不僅提高了存儲的成本,也增加系統傳輸的負擔,模型很難被下放到一般儲存空間有限的智慧終端機硬體,限制了應用可能性。

也正因為此,“未來深度學習的應用成敗關鍵,就在於有沒有好的壓縮演算法可以降低頻寬的負擔。”深鑒科技 CEO 姚頌一語道破。

壓縮演算法帶來效能提升,比換硬體架構更划算

圖丨在不同網路下的性能比較

如果可以把模型直接壓縮到幾十分之一,權重數量減少到三分之一,那就意味著你可以減輕頻寬負載到數十分之一,並同時把性能提高到 3 倍。目前市場上的 AI 計算硬體,鮮少有企業敢宣稱自家相鄰兩代的計算硬體性能在同等晶片/計算密度下,可以有 3 倍性能提升。但是,深鑒單純借由壓縮演算法的導入,就可大幅改善現有計算硬體的效率,這對於業界而言,帶來的影響是革命性的,因此深鑒甚至被譽為是中國版英偉達。

圖丨物體識別的效率並不因為壓縮的過程而有明顯減損,但可省下九成的模型存儲空間

英偉達開創了深度學習時代,而深鑒則是革新了深度學習的模型建立邏輯,狠狠踩破了傳統計算硬體的發展思維。

這個演算法倒底強在哪裡?

這個演算法是由深鑒科技的聯合創始人韓松博士所發明,借由稀疏化來加速深度學習的過程,並且大幅為學習後的模型瘦身。其演算法結構用上了剪枝(Pruning),量化(Quantization),權重共用(WeightsSharing)以及霍夫曼編碼(HuffmanEncoding)等深度學習專用壓縮技術。

圖丨深鑒的壓縮演算法擁有不同的細微性設定,可針對不同規模的學習模型自我調整調整出最佳設定

類神經網路就好像人類的大腦一樣,每個神經元能連結其他神經元的數量有限——也就是說,當類神經網路在“思考”的時候,其實是包含了很多沒有任何意義的冗雜資訊,以及對結果判斷沒有影響的權重,而最簡單的作法,就是為這些權重的絕對值設立一個閾值,只要小於這個被預先定義的範圍,我們就直接把相關數值捨棄,只保留絕對值較大權重對應的連接。

圖丨通過 DECENT 神經網路壓縮工具可在不損失演算法精度的前提下,將網路模型的計算量和規模壓縮幾分之一到幾十分之一

憑藉這種壓縮邏輯,最終產生的模型規模可獲得大大的縮減,不僅改善頻寬佔用,同時也能強化後端平臺使用此模型的 AI 應用執行效能。當然,韓松所發明的這套演算法擁有專利,雖然業界要避開專利發展類似演算法不是不可能,但難度非常高,且前面還有深鑒這堵高牆存在。

DNNDK 直接對標英偉達的 TensorRT

圖丨深鑒的 DNNDK 借由更有效率且更彈性化的開發環境,解決開發者在產品開發上的問題

深鑒之所以被稱為中國版英偉達的另一個原因,就是在深度學習的開發 SDK 方面,直接和英偉達才剛發佈不久的 TensorRT 打擂臺。

TensorRT 作為探索 GPU 計算潛力的必備軟體工具,不僅設計上簡單易用,且能夠將深度學習中的推理演算法更好的發揮出來,作為英偉達佈局深度學習的第二個階段,那就是把 GPGPU 從單純學習,增加推理計算應用,其重要性不言自明。

那麼 DNNDK 又是怎麼回事?這套 SDK 是深鑒針對自行發展的 AI 異構計算平臺 DPU(Deep-learning Processor Unit)所推出,提供全自動的壓縮與編譯工具鏈等流程的支援,涵蓋了神經網路推理(Inference)階段從模型壓縮、異構程式設計、編譯到部署運行的全流程支援,説明深度學習演算法工程師和軟體發展工程師輕鬆利用 DPU 的深度學習計算能力,實現 AI 計算負載的加速。

圖丨 DNNDK 與自家 DPU 平臺緊密結合,帶給業界更高效,且一致性高的開發環境

舉例來說,依靠 DNNDK 提供的羽量級 C/C++ APIs,開發一個 ResNet50 圖像分類應用,大概只需要兩百行左右的代碼量,其中與 DPU 程式設計相關的代碼只有五十行左右,大大減輕了程式開發者的工作負擔。當然,最重要的壓縮功能,DNNDK 已經做到全自動化的地步,完全不需要人力介入。

目前, DNNDK 已經支援了主流的 Caffe 框架神經網路模型,另外對 TensorFlow 和 MXNet 框架的支援很快也會在後續的改版補上。

吸引業內巨頭三星、聯發科等大咖投資

正因為深鑒的定位極為特殊,剛好又站在 AI 計算生態興起的風口上,從創立之初就極受關注。

聯發科和三星同樣都對 AI 的應用和技術發展有著濃厚的興趣,尤其是三星,其 Bixby 以及延伸出來的自然語音服務體系,已經貫穿整個三星企業的核心產品,但尷尬的是,三星還沒有自己的終端 AI 計算方案,雖然已經開發一段時間,但是看到蘋果的神經引擎,以及基於寒武紀的華為 NPU 在 AI 計算效能上技驚四座,維持閉門造車的作法恐怕不能再和這些方案競爭。

也因此,為了在相關的 AI 終端能夠卡到更好的位置,擁有絕佳專利的深鑒開發方案就成為首選。三星風投並沒有加入深鑒 5 月的 A 輪募資,相反的,是在 8 月以個別投資的方式加入深鑒的股東行列,目前投資金額不明,但預估不會少於 A 輪募資中幾大首要投資者。而值得一提的是,深鑒也是三星風投對外投資的第二家 AI 方案公司,可見其對深鑒的重視程度。

聯發科的處境和三星有點類似,同樣是想通過移動方案加入 AI 計算能力來提升整體方案的競爭力,並且希望能擴及到更多的產品應用。但與三星不同的是,聯發科的 AI 發展基礎相當薄弱,目前該公司也還沒有任何 AI 服務形成生態。因此對於聯發科而言最快的方法,就是導入目前業界已經被普遍使用的 AI 架構,直接取用現成的生態。

值得關注的是,深鑒目前在語音與圖像識別方面已經擁有不少客戶,相關的開發資源也算得上豐富,若直接集成深鑒的 AI 技術,對於往後方案的競爭力,以及提升方案的應用廣度上將有正面幫助。雖然聯發科在 AI 技術領域還沒有太顯眼的結果,但聯發科在其汽車方案的圖像識別技術上,正是選擇了深鑒作為合作物件。

當然,除了三星風投和聯發科以外,Xilinx 是另一個重要的核心支持者,這家 FPGA 方案公司在深鑒開創之初就已經瞭解到其應用上的潛力,因此 Xilinx 不但在方案供應上與深鑒有相當緊密的合作,並且還借助深鑒的深度壓縮演算法,改善市場競爭力。

深鑒、地平線以及寒武紀

DT 君用簡單的描述來區分這三家方案公司,深鑒的團隊多由清華出身,特色是用專利深度壓縮帶領其 DPU 方案打入市場,其強大之處在於借用壓縮手段,可以把 AI 的推理判斷帶入更多、更細微的終端應用。雖然目前是基於標準 FPGA 架構,但不久後也會推出自己的 ASIC,藉以進一步優化性能與功耗表現。

地平線則是在應用的演算法上有其獨到之處,尤其是針對自動駕駛的視覺判斷演算法上,可達到低功耗與高效能表現。地平線的團隊是從百度出來,著眼於演算法加上自有晶片的開發,但市場面向較深鑒更有針對性,目前主要業務目標是針對汽車 ADAS 或自動駕駛需要的視覺判斷方案進行開發,與視覺判斷相關的智慧家居、安防也有涉獵,並於日前宣佈完成由 Intel Capital 領投的 A+ 輪融資。

而搶下全球 AI 晶片第一隻獨角獸封號的寒武紀,定位比較特殊,主打高“通用性”的深度學習方案,與前兩者“針對性”較高、方案只能一個蘿蔔一個坑的作法不同。由於寒武紀投入開發的時間較早,目前主流的深度學習標準幾乎都有支持,且雖然強調通用,但其理論性能非常強大,與國外方案相較之下甚至有過之而無不及,現階段最為人所知的應用案例,就是華為在其最新的高端手機方案麒麟 970 中集成了寒武紀的 NPU 計算單元。

由於三者針對的市場領域各有不同,所以 DT 君也不做技術優劣的區分,事實上,硬要比的話只會落入關公戰秦瓊的尷尬局面。總之,這三家廠商都在各自的領域成功打下一片江山,技術層次與市場競爭者相較之下,毫不落後。

圖丨三家強勢崛起的中國 AI 晶片公司

自 2016 年 2 月成立至今,深鑒科技得到了來自金沙江創投、螞蟻金服、三星風投、聯發科、Xilinx、華創資本、高榕資本等多家重量級機構的注資,成為國內發展最快的 AI 整體解決方案創業公司之一。

在各家深度學習方案先後崛起的情況下,深鑒方案依靠著深度壓縮演算法,著實卡在一個相對有利的位置,憑藉這個演算法,有機會達成他們賦予萬物智慧這個遠大目標,但光靠一個成功的演算法還沒辦法成就偉大的事業,深鑒在方案的多樣化,以及開發環境支持的完整性其實也還有改善空間。

但作為一家成立不過兩年的公司,深鑒獨特的技術切入角度,的確給全球 AI 產業發展造成思維上的巨大衝擊,DT 君也樂見深鑒的崛起能為中國 AI 產業帶來更好的激勵作用,甚至如同當初英偉達帶起 AI 計算革新,由我們”中國英偉達”掀起下一波 AI 產業的革命。

而深鑒科技對此也信心滿滿,深鑒科技 CTO 單羿在發佈會上所說:“深鑒科技有信心引領前沿技術,希望能助力中國人工智慧行業實現彎道超車。而此輪融資的完成,將為深鑒產品研發與市場推進注入強大動力,實現深鑒科技在人工智慧領域的穩固發展,加速完成市場佈局。”