「市場觀察」異構看好FPGA 加速雲要為AI高算力加速

算起來，人工智慧（AI）概念已經提出60多年了，而最近兩年，得益於智慧終端機的普及帶來的資料爆發式增長，以及深度學習、神經網路演算法的發展， AI市場受到了空前的關注，但AI要得以快速普及，還缺少高算力的推動，需要提供更好的硬體加速條件。

2018年4月17日，業界領先的異構加速和業務卸載方案提供商杭州加速雲資訊技術有限公司在京舉辦了科技峰會及新產品發佈會，隆重發佈了四大創新產品（兩個系列硬體加速產品（SC-OPS, SC-VPX）、兩個IP庫 (FDNN, FBLAS)）及三大解決方案（深度學習解決方案、高性能計算及數位信號處理解決方案、邊緣計算解決方案）。

搶

先佈局異構計算

杭州加速雲資訊技術有限公司創始人兼CEO鄔剛是學習通信出身，最早跟隨中國程式控制電話交換機之父鄔江興院士進入通信行業。兩年之後，他加入了華為負責晶片設計。 2007年開始創業，創辦過3家公司，對CPU匯流排、多核處理器的發展有著清晰的理解。經過多年的積累和對未來市場的預估， 2015年9月，鄔剛先生創辦了加速雲。

杭州加速雲資訊技術有限公司創始人兼CEO 鄔剛

加速雲的解決方案可以廣泛應用於深度學習、人工智慧、金融、機器視覺等領域。目前已與阿裡、騰訊、科大訊飛等多家企業開展深入合作。

“加速雲是從技術上推導出來的一家公司，起源於2014年我們家迎來第一個小朋友，在陪產過程中形成的一個想法。 ” 鄔剛先生提及創辦加速雲的心路歷程， “在2014年，按照英特爾的發展，下一步一定是異構，我們當時認為異構，要麼用GPU，要麼用FPGA。英特爾在GPU上有一次失敗嘗試，加上GPU自身功耗太高等問題， FPGA會是異構計算的一個理想選擇。

”

事實上，在加速雲誕生之初已經擁有強大的技術儲備。基於FPGA來做異構計算是鄔剛先生2014年4月就想出來的計畫，直等到2014年10月英特爾在IDF大會上宣佈x86+FPGA處理器，他認為這個機會點來了， 11月份正式開始研究，到2015年4月，研發出了第一代原型機， 2015年9月開始量產，加速雲公司隨之註冊。

在深度學習中，做好演算法只完成了1/3，在這個團隊裡面，既需要很強的實現演算法的能力，還要有非常強的工程化能力，這種工程化的能力，包括介面和實現量產的能力。 “我們知道做出一個東西很容易，但是做好還是挺難的。我們有一個非常小的板卡，反覆運算了四代，每一次反覆運算都要花百萬人民幣，因為硬體投入很大，每次反覆運算有可能只改了一點，

我們發現未來可能存在的一些風險問題，就把它改掉，這是我們團隊特別的地方。我們是一個工程化能力非常強的團隊，整體技術行不行是我們最重要的考量。 ” 鄔剛先生介紹。

基

於FPGA的異構計算是趨勢

目前處於AI大爆發時期，異構計算的選擇主要在FPGA和GPU之間。儘管目前異構計算使用最多的是利用GPU來加速， FPGA作為一種高性能、低功耗的可程式設計晶片，在處理海量資料時， FPGA計算效率更高，優勢更為突出，尤其在大量伺服器部署時，隱形的運營成本會得到顯著降低。

此外，低延遲、確定性延遲，也是FPGA天然的優勢。

鄔剛表示：“人工智慧已經進入我們的生活，但是未來發展還存在瓶頸，需要硬體技術和演算法方面的突破。異構計算是計算架構的未來趨勢，

而FPGA 是實現異構計算的完美選擇。加速雲創新的異構計算加速平臺解決方案，具有高性能、高效率、低延時特性以及可程式設計性和遠端可重構能力，非常適合雲上的彈性業務的需求。我們希望能夠通過我們的技術，幫助更多的企業實現深度學習，在大資料時代贏得先機。 ”

全

球最高性能FPGA加速卡

SC-OPS是加速雲推出的全球首張Intel Stratix 10 FPGA加速卡，採用Intel最新14nm工藝的Stratix10 GX2800 FPGA器件，單板支持12個200維雙精度線性方程求解，運算時間為466us，為x86系統60~120倍性能；單卡可以實現4500幀/S以上圖像分類（採用AlexNet卷積神經網路模型， int16）。

SC-OPS可以廣泛應用於資料中心、雲計算、機器視覺、深度學習、高性能計算、模擬、金融等領域。

全

球最高集成度VPX業務卡

SC-VPX是全球計算密度最高的VPX刀片加速平臺，採用Intel Stratix 10 GX2800器件，相容GX1650，構造業界先進、靈活、高效的信號處理和深度學習架構，主要定位高校研究所等單位的雷達、通信、深度學習相關領域的產品原型快速搭建和演算法開發與應用。

6U整機可以支援92T/50T FLOPS單精確度浮點處理能力，整機可以通過交換板互聯構築更大的系統；支援OpenCL、Verilog開發，支援高性能計算庫。

RTL

級深度學習加速庫

深度學習加速庫FDNN是國內首個支援通用卷積神經網路的FPGA加速庫，基於RTL級代碼，可以提供很高的性能和靈活配置特性。

參數可配置的深度學習基礎庫：卷積、池化、全連接、非線性函數；相容CAFFE/TensorFlow模型資料；常見各種模型：VGG16, Lenet, YOLO, SSD, ResNet。

RTL

級高性能數學加速庫

高性能計算加速庫FBLAS是業界更高性能的RTL級數學加速庫。參數可配的OpenBlas庫Level2/3：矩陣乘、矩陣分解、矩陣求逆，線性方程求解、微分方程求解，三角函數、非線性求解、超越函數，傅裡葉變換。

FDNN是專門為深度學習設計的，FBLAS更多是偏向於數位信號處理和高性能計算。

三

大解決方案

•深度學習加速解決方案-加速雲推出一整套基於FPGA的深度學習加速方案，包括SC-OPM/SC-OPF/SC-OPS加速卡及FDNN加速庫，滿足客戶對深度學習高性能、靈活性加速要求。為了方便客戶使用高層語言開發，加速雲提供基於FPGA完整的OpenCL異構開發環境，快速實現使用者自訂的深度學習加速方案。同時加速雲也提供快速深度神經網路定制加速服務。

•數位信號處理解決方案-針對雷達、通信等數位信號處理系統的要求，結合Intel最新14nm工藝的 Stratix10 FPGA系列，加速雲提供了一套完整的硬體和軟體相結合的解決方案，實現了高性能矩陣運算（矩陣乘、轉置、求逆、QR分解）和超高速FFT(傅立葉轉換)。為了方便客戶使用高層語言開發，加速雲提供基於FPGA完整的OpenCL異構開發環境，快速實現使用者自訂的信號處理加速方案。

•邊緣計算解決方案-加速雲智慧工控解決方案採用高性能Intel Arria10 GX660器件, 具有模組化設計，強即時特性和高性能的演算法IP加速、完整的OpenCL異構開發環境，可以實現新一代高性能邊緣計算閘道，應用於各種工業環境。

加速雲最核心的競爭力在於其IP方面，除了用於數位信號處理和高性能計算的數學庫FBLAS，以及用於深度學習的FDNN庫，還具有很多介面類別的IP（高速通信介面、視頻界面）、協定類IP（壓縮、解壓縮、加解密），研發團隊在FPGA方面有著十多年的經驗，積累了很多相關的IP。

憑藉自身在FPGA上的技術優勢，加速雲獲得合作夥伴的大力支持，可以率先拿到英特爾第一批流片的內部測試晶片，對加速雲保持技術領先非常重要。

北京站是加速雲“加速新科技，驅動智未來” 科技峰會的首站，接下來加速雲將在上海、成都、西安三大城市分享其最新成果。過去兩年，加速雲平均每年都有獲得一次融資，據悉，第三輪融資正在達成。