“人工智慧二重唱”：商湯科技和英偉達如何做到萬里尋一？

在近期舉辦的GTC 2017第八屆GPU技術大會上, NVIDIA(英偉達)與專注於電腦視覺和深度學習的企業商湯科技(SenseTime),上演了一場“人工智慧二重唱”,為人工智慧技術的進步帶來了更多新思路。

英偉達GPU:通往人工智慧的計算大腦

GPU,即圖形處理單元,它賦予了電腦強大的圖形處理能力,推動著遊戲、影視、工業設計等行業發展。 10年前,CUDA的問世將GPU應用提升到了全新高度,憑藉卓越的平行計算能力,使其在高性能計算、物理類比等領域發揮出更大價值。而在隨後的幾年時間裡,不論是新建的超級電腦,大型資料中心,GPU都起到了至關重要的作用。

2012年,基於GPU的AlexNet在ImageNet大規模視覺識別競賽中獲勝,將準確率大幅提高,這是近年來人工智慧迅速發展的里程碑事件,而這,也引爆了GPU在深度學習領域的大規模應用。

在現代人工智慧崛起的這幾年當中,NVIDIA先後推出了TITAN X、Tesla P100等等用於深度學習的GPU產品,其每一代都實現了兩倍甚至更高的深度學習性能提升,本次最新發佈的Tesla V100更將其提升到了新的高度。同時,NVIDIA推出的DevBox、DGX-1等深度學習系統,更讓相同的訓練任務,從幾個月,縮短到幾周,幾天甚至幾個小時。

目前,不僅是商湯科技,如阿裡巴巴、百度、騰訊、Facebook等等世界頂尖AI企業,都在使用NVIDIA GPU進行深度學習訓練和推斷,而NVIDIA Jetson TX1/TX2、NVIDIA DRIVE等平臺的推出,也為智慧城市建設、自動駕駛等,鋪平道路。

商湯演算法:驅動強大AI大腦的運算邏輯

自成立之初,商湯科技便堅持自主研發,牢牢將人工智慧演算法技術掌控在自己的手中。 2011年,商湯科技創始團隊便開始大規模投入深度學習研究,並率先將深度學習應用於電腦視覺領域。商湯科技從演算法層出發,打造了原創深度學習框架,結合其投入超過4000萬自主搭建的深度學習超算平臺,極大降低AI系統和新技術的研發時間和成本。

深度學習框架好比生產深度學習模型的流水線,走自主設計的路線儘管難度大,但方向自主可控,可以非常方便的升級和改進,用於生產新的模型。相比之下,借助協力廠商的生產線,儘管易於上手,但在修改調試時往往會有一定的限制。商湯科技在ImageNet 2016上憑藉1207層神經網路架構,贏得三項視覺識別專案的冠軍,正是憑藉其原創的深度學習框架所建立的優勢,而這套網路在其他協力廠商框架上則無法支援。

商湯科技CEO徐立博士說:“這不是演算法的問題,而是系統的問題。公司開發的一些新的架構,TensorFlow,Caffe可能支持不了。 ”

“我們還能訓練非常深的網路架構,網路層數越深,學習能力越強,結果就越精准”,徐立博士表示,“此外,通過設計更加複雜的神經元資訊傳遞機制,在同等深度下,我們可以訓練更強的神經網路；我們還可以在不損失識別精度的情況下,把網路進行成百上千倍的壓縮和加速,讓整個訓練過程速度更快,功耗也可以得到進一步降低。 ”

不難發現,自主、可控、靈活是商湯技術優勢的代名詞。

而也正是基於這樣的優勢,商湯科技可以將深度學習訓練模型帶到各種各樣不同的應用場景當中。

GPU計算能力商湯演算法,迸發多彩創造力

商湯科技的SenseFace,便是英偉達GPU和商湯上千層神經網路架構充分協作的最典型代表!它可以支援千路以上監控視頻中即時人臉識別,並在千萬級人員庫中300ms內獲得識別結果!在光照、角度、表情、遮擋、年齡變化等情況下,其準確率也處於行業領先水準。如此強悍的功能,現在還被成功部署到Jetson平臺上。憑藉NVIDIA提供的cuDNN和加速深度學習推斷的TensorRT庫,SenseFace在單個Jetson TX1上,即可支援2路全高清視頻的即時處理!SenseFace的推出,不僅可為反恐任務提供事前、事中與事後的技術保障,更可用于失蹤人員查找、VIP客戶管理以及商業智慧資料服務等應用。

SenseVideo視頻結構化系統,是商湯科技在ImageNet 2016中獲得場景分析第一名的深度學習模型的實際應用成果。基於GPU所訓練的1207層神經網路,讓機器能夠看懂機動車、非機動車、行人的屬性並跟蹤,甚至獲得車牌識別、車型分類的能力,成就未來的智慧交通應用。同樣,得益於NVIDIA cuDNN和TensorRT,SenseVideo在單個Jetson TX2平臺上即可即時處理雙路高清視頻。

如果說在視頻監控領域,商湯科技和英偉達的“AI二重唱”在帶來智慧化的同時,放大其應用規模,那麼在個人消費場景中,帶來的則是全新的應用模式。商湯科技此次首次展示的SensePose,正是這一路徑的得力體現。

以往,進行人體動作捕捉,都需要借助雙攝像頭,或帶有額外傳感裝置的攝像頭實現,而SensePose可以讓最普通的攝像頭,實現人體動作估計的能力,就像變成Kinect一樣。其背後,正是來自商湯針對視頻分析的演算法優化,以及英偉達DGX-1進行訓練,並最終實現在視頻中即時識別人體姿態,定位手、肩、腳、腰等十幾個關鍵點位置,更可精准的把關鍵點定位在10個圖元以內的人體關節上。SensePose無疑可以降低動作估計系統的成本,可以大規模應用在虛擬穿戴、虛擬試衣等前沿應用領域。

目前,人工智慧正處於飛速發展的時代,每一年都會有性能更強的深度學習硬體平臺推出,與之匹配的演算法也在不斷反覆運算更新。只有將二者充分結合,保持演算法的持續領先,不斷突破,方可立於不敗之地。

其背後,正是來自商湯針對視頻分析的演算法優化,以及英偉達DGX-1進行訓練,並最終實現在視頻中即時識別人體姿態,定位手、肩、腳、腰等十幾個關鍵點位置,更可精准的把關鍵點定位在10個圖元以內的人體關節上。SensePose無疑可以降低動作估計系統的成本,可以大規模應用在虛擬穿戴、虛擬試衣等前沿應用領域。