ImageNet 2017啟幕，海康威視浦世亮談2016奪冠絕技及深度學習+安防？｜新智元AI 領軍人物專訪

新智元原創

根據 ImageNet官網的最新消息，今年的 ImageNet 大規模圖像識別挑戰賽（ILSVRC2017）已經拉開帷幕。

今年的比賽項目分為4個：

物體定位

物體識別

視頻中物體識別

Tester Challenges

官網特別提示：已經使用了幾種演算法的參與者可以每個演算法提交一個結果（最多5個演算法）。演算法參數的變化不構成不同的演算法（遵循PASCAL VOC中使用的過程）。

去年的 ImageNet上，來自中國的團隊大放異彩：CUImage（商湯和港中文）， Trimps-Soushen（公安部三所）， CUvideo（商湯和港中文）， HikVision（海康威視）， SenseCUSceneParsing（商湯和港中文）， NUIST（南京資訊工程大學）分別拿下多個項目的冠軍。

其中，海康威視拿下了場景分類（Scene Classification）的冠軍。具體賽果見下表：

另外，在物體探測任務上，海康威視也有亮眼表現：

海康威視這家做安防出身的企業目前在電腦視覺上已在國際上取得領先的地位，除了ImageNet 外，在PASCAL、KITTI和MOT等競賽中都有亮眼表現。

新智元最新一期的AI領軍人物專訪採訪到了海康威視首席專家、研究院院長浦世亮，他分享了海康威視奪冠 ImageNet 背後的技術，談到 2017年，深度學習在複雜網路設計、模型壓縮方向的研究依然是熱點，深度學習和LSTM、增強學習的結合進一步加強。另外，針對當下安防行業的智慧+現狀，他也提出了獨特的見解。

浦世亮海康威視研究院院長

浦世亮，法國國家科學研究院（CNRS）博士，浙江大學理學博士，現任海康威視首席專家、研究院院長，負責公司在人工智慧及大資料領域的技術研究。

浦世亮帶領研究院研發的Smart 265編碼技術、目標結構化演算法、車牌識別演算法、人臉識別演算法、視頻檢索引擎、多感測器融合等技術，被廣泛應用于公共安全、金融、交通、司法、零售、智慧城市等多個領域。

【預告】明天的新智元“327”技術峰會上，浦世亮將作為特邀嘉賓分享題為《安防大資料驅動下的智慧生活》的演講，就（1）智慧設備面臨的現實問題；（2）對物理世界更真實的描述；（3）如何應對物理世界的挑戰；（4）從安防大資料開始的展望等話題展開。更多精彩，請關注大會直播。

以下是專訪內容：

海康威視 ImageNet 2016 奪冠背後技術詳解

新智元：去年 ImageNet 大規模圖像識別挑戰賽（ILSVRC）中，海康威視（HikVision）拿下場景分類項目的冠軍。你能具體介紹一下這一比賽項目嗎？海康威視奪冠的技術核心是什麼？

浦世亮：ImageNet 場景分類任務採用MIT發佈的 Place2 資料集，其目的是對圖像中存在的場景進行識別。該資料集擁有365個類別的場景目標， 800多萬張已經標記的訓練樣本。相對于普通的ImageNet圖像分類任務，場景分類任務的難點在於其資料分佈非常不均衡，每個類別的資料從5000 到 30000不等，每張圖像都可能在不同的場景描述和相對更模糊的場景標籤。

場景分類技術，對於視頻產業及其應用領域有比較重要的應用價值，基於對場景的理解有助於我們的系統更好地對於視頻中的資訊進行理解和應用。

海康威視從成立之初就專注於電腦視覺領域技術的研發， 13年就開始深度學習的技術佈局，

實現了一整套的深度學習訓練框架，並探索了深度神經網路的優化演算法，包括對網路參數初始化、超參數搜索、正則項、損失函數、流形優化理論等的研究。

另外，我們還從信號調製方向切入，圍繞信號在網路前向反向傳輸中的保範性(norm-preserving），探索深層網路優化的可行性與新方向。

浦世亮：深度學習+安防 10 問

2016年10月24日，海康威視在北京召開“AI+:感知未來、融合發展”主題論壇，新智元受邀出席。

1. 新智元：10月24日，在北京召開的“AI+: 感知未來、融合發展”主題論壇暨海康威視新品發佈會。海康威視總裁胡揚忠介紹，深度學習技術可謂安防行業的“顛覆性力量”，具體如何理解呢？

浦世亮：在SDT安防大資料時代，面對井噴式增長的視頻監控資料量，

只停留在淺層次分析識別的傳統智慧演算法，已無法滿足深層次資料價值挖掘的需求。顯而易見，我們需要有更深層次的智慧，應用人工智慧可以幫助我們做到這一點，而這其中的關鍵點便是深度學習演算法的應用：

準確率更高，應用深度學習演算法的深度智慧設備，可以自行提取更多更詳細、更微小的特徵，從而使得識別分類物件的準確率更高，也就是說：深度學習讓智慧有了質的飛躍；

環境適應性更強，同樣是環境特徵的提煉，深度學習演算法可以自行提取更豐富、更適合的特徵參數，從而達到更強的抗環境干擾能力。這就意味著，深度學習的產品可以應用到更廣泛的環境當中；

識別種類更豐富，理論上只要有足夠多的樣本進行訓練，深度學習能夠實現比較精准的目標分類識別，自主特徵識別的特點，又讓深度學習特別適用於抽象、複雜的關於人的特徵、行為的分析領域。

2. 新智元：視頻分析是安防中一個非常重要的技術。那麼深度學習是如何對視頻進行分析的？其中的技術難點主要存在於什麼地方？

浦世亮：深度學習技術主要是利用深度神經網路，對視頻關鍵幀資訊進行逐層特徵抽象，在此基礎上，提取目標的結構化資訊，並利用各關鍵幀的資訊，進行前後有效關聯，從而形成對視頻中目標行為或事件發生的綜合判斷。其技術難點主要體現在海量資料應用、高性能訓練、推理平臺，以及適合安防領域的高效模型設計上。

3. 新智元：安防資料99%都是非結構化的，那麼你們是如何利用這些資料？有沒有比較便捷的辦法，把這些資料變成結構化的？

浦世亮：原始的安防資料幾乎都是以非結構化的面目呈現，無法直接利用。針對這個業內普遍痛點，海康威視推出了基於深度學習技術的全系列智慧安防產品家族，涵蓋“深眸”系列智慧攝像機、“神捕”系列智慧交通產品、“超腦”系列智慧NVR、“臉譜”系列人臉分析伺服器等等。“‘深眸’系列專業智慧攝像機依託強大的多引擎硬體平臺，內嵌專為視頻監控場景設計優化的深度學習演算法，具備了精准的安防大資料歸納能力，實現了在各種複雜環境下人、車、物的多重特徵資訊提取和事件檢測。將非結構化資訊轉為結構化資訊，將打通大資料入口，從而為後續關鍵資料採擷鋪平了道路。

4. 新智元：目前實際應用中，視頻人臉識別的準確率能做到多少?

浦世亮：人臉識別的準確率與多個因素相關，與演算法的先進性，產品形態，應用方式及場景架設相關。現有的人臉識別技術的準確率在多種應用場景下都已經達到了實用的階段。海康威視打造了“深眸”系列智慧攝像機、人證比對終端等，首先在產品形態應用方式，場景架設上保障了人臉識別的高精度應用。我們在應用中不斷反覆運算我們的演算法，使我們的演算法準確率不斷提升。

5. 新智元：在實際應用中，攝像頭採集到的安防資料，有多少還需要人工的分析？我們離真正的全自動化還有多遠。

浦世亮：安防人工智慧和應用需求相關，有一些應用已經達到了完全的自動化。有一些安全等級較高，準確率要求較高的應用，還需要人工參與。

6. 新智元：除了人臉，其他的生物特徵，比如瞳孔識別，這些技術在安防領域的應用有多大？

浦世亮：技術的發展和落地是有過程的，當前人臉識別比較火，主要是技術發展到了可以達到實際應用的水準。

瞳孔識別的標準說法是虹膜識別，對於圖像採集的要求是非常高的，需要利用紅外補光，而且需要虹膜區域解析度達到100圖元左右，當前主要用在金庫等安保等級較高的場景，需要人做一定的配合。

當然我們也看到相應技術在進步，比如利用高解析度的攝像頭，結合一些自動調整策略，能夠把虹膜識別在安檢時用上，採集距離達到1米左右，1秒左右完成一個人的通關。

所以說，虹膜識別等其他的生物特徵識別技術當前只能在一些特定的場合應用，隨著技術進步，這些技術的應用場合也會擴大，但是什麼時候能夠像人臉識別一樣廣泛應用，就需要看特定技術的未來發展情況。

7. 新智元：你如何看待 “開源”這一現象，海康威視有使用開源演算法或者開來源資料嗎？

浦世亮：在資訊共用越來越發達，資訊獲取越來越便利的時代大背景下，開源是對資訊共用的最好詮釋。從更加具體的層面來看，人工智慧正是由於各大研究機構，對於資料集、演算法、論文、技術報告的不同程度的資訊共用，間接地加速了這一領域的技術交流與技術的更新反覆運算。

海康威視會研究跟蹤開源技術，並且我們也會通過發表學術論文的方式對開源技術做出貢獻。

8. 新智元：在行業生態上，海康威視如何與其他的夥伴合作？比如英特爾，海康威視與英特爾的合作具體是怎麼樣的？你怎麼評價他們的他們今年推出的端到端全面深度學習產品？

浦世亮：海康威視是安防行業的產品和解決方案提供商，秉承共贏未來的理念，和硬體晶片廠商會開展緊密合作，共同深耕人工智慧在安防領域的應用。

海康威視和英特爾有長期深入的合作，英特爾公司在深度學習領域有許多非常有價值的產品。

9. 新智元：你認為2017年，計算視覺領域會有哪些發展？在與硬體的結合上，這一技術會呈現什麼樣的趨勢？

浦世亮：經過前幾年深度學習技術的迅猛發展，電腦視覺領域已經取得了長足進步。2017年，深度學習在複雜網路設計、模型壓縮方向的研究依然是熱點，深度學習和LSTM、增強學習的結合進一步加強。

深度學習的硬體平臺，會呈現一個爆發期，各大晶片廠商都會在今年推出適合深度學習的晶片平臺，但計算能力和功耗仍存在矛盾，所以若要結合硬體平臺推出產品，深度學習模型壓縮顯得尤為重要。

10. 新智元：現在在人工智慧領域很多公司都強調AI+，用AI技術+具體的應用場景，但是海康威視走的傳統的安防企業+深度學習技術，你認為這兩種路徑有什麼不一樣嗎？對於傳統行業來說，要如何實現向智慧化的轉型？

浦世亮：海康威視投入人工智慧的研究已經有超過10年的歷史，已有人工智慧的產品投放市場且產生了廣泛的社會應用，我們主要將人工智慧應用在安防產業。

安防巨頭在深度學習上的佈局

新智元：今年2月，海康威視在蒙特利爾建立研發中心，在矽谷建立研究與，海外研發中心的作用體現在哪？海康威視每年對研發的投入有多大？

浦世亮：主要有4點：

1.進一步擴大海康威視的影響力；

2.吸引高素質人才；

3.提升公司的創新能力；

4.增進與世界頂級實驗室的合作

研發投入占比：7%左右

（海康威視官網資訊顯示，比上年同期增長26.69%；營業利潤 68 億元，比上年同期增長24.84%。）

新智元：海康威視目前在安防上的市場份額具體有多少？

浦世亮：據美國權威機構iHS market 2016年7月發佈的報告顯示，在視頻監控領域，海康威視2015年全球市場份額從2014年的16.3%增長至19.5%，五年蟬聯全球第一。

2016年11月，全球知名的工業媒體a&s《安全自動化》（MFNE法蘭克福新時代傳媒）發佈2016年度全球安防50強榜單。海康威視躍居全球榜單首位。

新智元：如何看待這兩年來迅速崛起的圖像識別公司？它們會對海康威視形成衝擊嗎？

浦世亮：人工智慧將撬動非常龐大的市場，在這個過程中，一定會出現很多優秀的公司，海康威視在人工智慧領域耕耘多年，我們的積累是系統性的，包括演算法、產品、資料、系統方案。另外，海康威視也有著其他方面的一些優勢，深耕安防多年，對客戶需求的理解也會深刻一些，能迅速的將技術進行落地應用。我們認為這次人工智慧的浪潮對於海康威視來說，是一次巨大的機遇，面對這次機遇，我們是有充分準備的。

10月24日海康威視發佈了基於深度學習技術的從前端到後端全系列智慧安防產品,將人工智慧技術革命性地應用于安防產品中,推動安防行業進入智慧新紀元。

深度學習能夠實現比較精准的目標分類識別，自主特徵識別的特點，又讓深度學習特別適用於抽象、複雜的關於人的特徵、行為的分析領域。