格靈深瞳創始人趙勇：安防是人工智慧商業化最快的領域

【TechWeb報導】3月14日消息，在TechWeb主辦的第215期IT龍門陣上，格靈深瞳創始人趙勇分享了《人工智慧在安防領域的商業應用和技術突破》的演講。他表示，安防監控一定是人工智慧最先大規模產生商業價值的領域，關於這點在2016年已經可以看出來了，今年會比去年至少有10倍的增長。

趙勇認為，人工智慧不是一個行業，它更像是一種能量，比如說水或者電，當人工智慧流入到不同行業，就會滋養這些行業的發展。只是不同行業在人工智慧的參與下會有不同的成長速度。其中，安防監控是人工智慧商業化最快的領域。

趙勇畢業於美國布朗大學電腦工程系， 2013年創辦北京格靈深瞳資訊技術有限公司，在格靈深瞳之前，趙勇主要的工作經歷是穀歌總部研究院任資深研究員。據趙勇介紹，當初選擇從安防領域切入創業還經歷過一番掙扎。

“當初回國後，有投資人跟我說應該關注安防領域，

但我從來沒有進入公安局，也沒有被人偷過或搶過，對這個行業一無所知，我花了幾年時間試圖對安防行業有一個全面的瞭解。 ”趙勇稱， “如何快速瞭解這個行業，我覺得可參考一下全世界規模最大的安防企業海康威視官網。 ”

海康威視對自己的定位是，以視頻為核心的物聯網解決方案提供商。以視頻為核心是一句很精確的話。 “在今天的安防監控行業裡，幾乎所有組成都是以視頻為核心。 ”

“後來我發現中國是全世界擁有安防監控攝象頭最多的國家，有硬碟公司的朋友告訴我，他們公司大約50% 的硬碟產量流到了監控行業，安防監控絕對是一個大資料公司。 ”趙勇稱，整個安防體系，從攝像頭到存儲都是一個擁有極大資料量的網路。

如何把普通資料變為有意義的“情報”

趙勇指出，安防監控的資料其實是價值最低的資料。有那麼多攝像頭和視頻資料，很多時候我們只是把這些視頻資料存在那裡，並不會去看，反正也看不過來，其實是挺浪費的。但是，客戶需要的永遠是有意義的情報，無論是出於安全因素破案，還是管理因素，都需要有意義的情報。

目前以視頻資料為核心的安防監控體系，其實給客戶帶來了大量的麻煩。因為產生了非常多資料，把這些資料放在客戶跟前，然後尋找線索，這好比大海撈針。所以整個行業都把希望寄託在智慧化上，所謂智慧化就是能夠把人工智慧引進來。也就是說，把所有的視頻資料除了人以外，引進人工智慧 Consumer，能自動把這些視頻資料裡面的內容和目標變成結構化資料。

結構化資料就是資料能夠直接表達目標的性狀、屬性以及身份。目前結構化資料已經可以使用非常成熟的手段去挖掘，這個過程中會有一些非常淺度地挖掘、簡單的篩選：比如黑名單。

檢測到一輛車時，車牌號碼是一個嫌疑犯車牌號，當我檢測到車牌號碼時，這輛車就被後臺預警。

再比如要檢測一個人，如果我有一張逃犯的照片，當我在某個地鐵站的攝像頭裡看到一個人長得像這個逃犯時，它可能就變成了一個有意義的情報。

當我們需要的資料變成結構化資料以後，在不同行業、不同場景要有大量的資料採擷應用才能夠有效地把結構化資料變成有意義的情報。所以，趙勇認為，未來人工智慧在安防監控行業會有大量應用軟體的市場空間，為各個垂直行業去做針對性的資料採擷。

人工智慧應該用在前端還是後臺

未來人工智慧一定會在安防監控領域普遍發生，其在實現時可以放在不同的設備裡，有時候是放在前端，比如攝像頭等；有時候是放在後臺的資料中心、伺服器上。趙勇指出，前端和後臺各有好處，但也要合適分配。

趙勇認為，針對視頻流時，放在前端最合適，因為可以節省一些頻寬；把智慧放在後臺的好處有點像雲計算，演算法升級、運維都會比較可靠，也便於分享。

視頻裡面的檢測、跟蹤、去重適合放在攝像頭裡去做，即前端。所謂檢測就是對目標的檢測，跟蹤就是跟蹤這個目標在攝像頭裡畫面中的移動，去重就是我把它送去識別時，從多次的檢測中選一個比較好的視角去檢測，把很多重複的檢測去掉。

而識別和比對則比較適合放在後臺，如果放去前端（攝像頭）去做，就會產生很多問題。比如，你在攝像頭裡做識別，識別產生人臉特徵。由於每個公司各自的演算法不同，就要求客戶後臺的比對系統只能對接這種特徵。這樣一來的話就給客戶帶來很大麻煩，假如我今年採購這個廠商的設備，那我的後臺也需要依據這些設備來建設。到了明年，我想採購不同廠商設備時，就會發現不相容性。

此外，比對也不應該放在前端，因為比對需要把客戶的核心資源對比庫放在攝像頭上，在很多公安應用裡面這些都是核心機密。客戶的核心資料應該放在最安全的地方，應該放在資料中心，放在後臺。

標籤：趙勇格靈深瞳龍門陣人工智慧安防( 責任編輯:廖漢強)

人工智慧＋人類智慧是智慧安防接下來的方向

趙勇認為，人工智慧和人類智慧是完美的互補，人工智慧的優點是速度快、成本低，容易複製，大規模部署，性能穩定，可持續提升等，缺點是複雜問題應對能力差，對環境變化的適應能力弱。人類的智慧跟人工智慧相比，幾乎是完全相反的。

以人臉識別為例，趙勇比對了人工智慧的不同應用：

1.1:1的人臉識別

在金融支付領域裡面，有些公司開發的軟體説明客戶去驗證使用者的身份。這類應用本質上是在回答一個問題。客戶的攝像頭拍一張照片，然後將照片傳到後臺，後臺知道驗證的對象是誰，並且有驗證對象的身份證照片。那麼它要回答的問題是“這兩個人是同一個人嗎？”，答案是“是”或者“否”

2.1 比 N 的人臉識別（靜態人臉比對）

1 比 N 的人臉識別也叫靜態人臉對比。與人臉驗證相比，靜態人臉比對就是更為複雜的問題。舉個例子，比如在某個省的公安廳，這個省有 5000 萬個有身份證的公民。這時候警方看到一個嫌疑人想調查這個人的身份，這個人是誰？是張三嗎？是李四嗎？是王五嗎？它要回答 N 個問題，可能還有一個最困難的問題也就是第 N+1 個問題：這個人可能誰都不是。

但靜態人臉比對使用的頻率比較低，只有當客戶要做一次搜索時它才會使用。它使用的場景允許用戶參與交互和確認。這種產品在過去一、兩年內的推廣也比較快，而且可用性相對較高。

3. M 比 N 人臉識別（動態人臉比對）

M 比 N 人臉識別也叫動態人臉識別，就是客戶安裝的攝像頭每看到一個人後，就在一個庫裡去比對這個人是誰，“M”代表的就是攝像頭，或者網路裡所有攝像頭抓到的人臉數目。“N” 就是對比庫中的目標數目。

趙勇舉例稱，假設每個相機每天看見1萬個面孔，對比庫中有1萬個目標，則每天要回答M*(N+1)=1億零一萬個問題。如果人工智慧每回答一百萬個問題會犯一個錯誤，那麼每天在一台相機上就會犯將近100個錯誤，也就是100個誤報或者漏報。

如果不是1台相機，數量上升到1000台，那就意味著每天在1000台相機上就會犯將近100萬個錯誤，也就是100萬個誤報或者漏報。隨著結構化資料規模上漲，大規模智慧系統產生的誤報會顯著上漲，以至於正確的情報會淹沒在海量誤報中。

趙勇認為，把大量的人工智慧和少量人類智慧結合起來，會產生一個較好的互補效應。

當海量的原始問題進來以後，先由人工智慧引擎回答，然後產生人工智慧的答案，但這些答案裡的多數答案是錯的，這種情況下可以把這些答案交給專業人員去驗證。人類驗證的好處是當一個答案可以通過人類的驗證，結果對於客戶來說這個情報至少是值得關注的。

而那些沒有通過真人驗證的錯誤答案，也都是很有意義的答案資料。通常它們都是比較接近正確答案的錯誤答案，這類資料對提高機器學習模型的改善和反覆運算也是非常有意義的。

另一種解決的方法是人工智慧＋大資料，趙勇表示，“大規模、多模態資料整合，將顯著提升人工智慧的精確度。”

趙勇稱，未來人工智慧產品必須注意的一個方向，也是我覺得成功的人工智慧公司必須具備的條件，就是要有很強的大資料分析能力。（周小白）

其在實現時可以放在不同的設備裡，有時候是放在前端，比如攝像頭等；有時候是放在後臺的資料中心、伺服器上。趙勇指出，前端和後臺各有好處，但也要合適分配。