依圖科技創始人：AI的邊界，只有領軍人物才可能準確把握

AI時代到來，如何對AI技術和產業發展更好更全面的理解？國內知名人工智慧公司依圖科技的聯合創始人朱瓏先生給出了他的觀點。

我是Leo，依圖科技聯合創始人， UCLA統計學博士，從事人工智慧研究15年。曾在深度學習奠基者Yann LeCun教授實驗室擔任研究員， 2010年獲得PASCAL圖像目標檢測比賽冠軍， 2017年獲得美國國家標準與技術研究院NIST和美國國家情報高級研究計畫局IARPA人臉識別全球冠軍。

最近，大量關於人工智慧的研究報告，投資人、創業者、學者熱議AI的趨勢和對社會各行業的影響，不乏對AI技術和產業發展的誤解，很容易有誤導性。

宏觀上，我覺得這個議題大體分為三個方面：AI是多大的事？誰是真正的AI player？AI的場景在哪裡？

作為科學研究者和創業者，從雙視角談談我的主要觀點：

l AI的邊界，只有領軍人物才可能準確把握和拓展；

l 頂尖企業，因為遠見造就勢能；

l AI的未來，無與倫比，沒有歷史可以借鑒，也沒有權威可以預測。

“S”曲線看AI格局

我對AI發展歷史和預測，可以用上圖的”S”形曲線建模（Sigmoid函數，恰好也是用來刻畫神經網路中神經元的activation function）。其中橫軸表示時間，縱軸表示機器智慧水準。曲線上的點表示某個時間點的全球最高智慧水準。 2013年開始是新AI時代（深度學習）， 2013年前的機器智慧發展水準相較於近5年的發展基本可以忽略不計。紅線代表悲觀派（AI退潮、AI泡沫等）， 2017年之後很快出現發展停頓；藍線代表樂觀派， 2017年之後還有快速發展。

值得強調的是，藍紅兩條曲線對AI歷史有相同認識，但市場上很多論調或研究報告看到的是另一條曲線，很大概率調研看到的AI水準離最高水準有很大差距。

分析AI格局的不同立場，可以通過解讀S曲線的三個方面：

1、AI過去的發展以及AI未來發展程度和速率的預測

2、AI發展水準和商業場景的關係

3、各個player的所在位置和差距

具體來說，我們先從AI過去5年的發展情況談起，以人臉識別作為例子，把人臉從N個人中找到的概率在95%，縱軸就是可識別的規模（N的大小）。

技術不是趨同，而是會放大差距、解鎖場景

2017年人臉識別最高水準可識別規模在20億人，大概比2016年可識別千萬提高兩百倍，比2015年提高了數萬倍。在2017年全球最權威的人臉識別測試中（NIST），我們比第二名Vocord團隊，在千萬比對測試上領先2％（Vocord在另一測試集比騰訊優圖高10%），這個就是大家常說的技術水準趨同，高一兩個百分點沒有意義（引申出難兌現成競爭價值）。

這個誤區需要從兩個方面解讀：

第一方面，演算法在億級、十億級比對的領先會快速放大到5%， 20%。這是一般的演算法性能曲線的規律。除了可識別規模上的重大差異，還體現在難（hard）的資料上的識別率差異。從演算法經驗來說，黑人、女性、小孩、大年齡跨度、遮擋等是較難識別的群體和類別。在這些子類上，不同演算法之間的性能差異會更大。超大規模下的評測本身就是一個不簡單的學術命題，還需要大量的資料支撐，真正能觀測到20億資料下性能的人少之又少，例如美國很難建立20億級的測試集。這不是訪談一些人臉識別研究從業者就能獲得，這是誤區的第一個來源。

第二方面，演算法提高，擴大可識別規模，就會解鎖更多商業應用場景。

百萬、千萬識別規模對應的是身份認證場景，遠端認證、手機解鎖都屬於此類。 “技術無差異”的論調在這個場景下倒是可以成立。但安防刑偵破案對億級和十億比對有剛性需求，在這些場景下，不是多識別出幾個罪犯的問題，而是找出來概率差別十倍以上的，幾乎就是行與不行的問題。 “非關鍵性應用”的論斷誤導性極強。

在最新的安防案例中，萬路甚至十萬路攝像頭視頻的人臉搜索、歸檔對演算法有極高要求，假定每路人流為萬，要在萬路視頻中，搜索性能相當於要求演算法百億、千億規模上的可識別率。這比其他場景的性能要求再提高千倍。以不同演算法為基礎的產品端體驗差異就被同比例放大。另外，全球人種的識別，是反恐、出入境業務對識別的覆蓋面要求是很很高的。

總結來說，99%識別率的演算法和99.99%的演算法，區別在於可解鎖的應用場景。這些新的場景解鎖，是最先鋒的演算法團隊和垂直領域的開拓者（比如公安系統的創新團隊）共同努力，也不是訪談一般的安防從業者就能感知變革的最前沿，這是誤區的另一個來源。

技術水準的三個層次VIE：Vision（遠見），Insight（洞見），Execution（執行）

技術實力該如何評估比較呢？最常見的是測試比賽的冠軍、實際案例、招投標PK成績、論文等。這些或許能區分是不是前10名的AI團隊，但很難區分最好的團隊。我對技術的三層解構：Vision，遠見，或戰略格局、技術趨勢判斷；Insight，洞見，演算法本質和客觀世界分佈規律的理解；Execution，執行，演算法實現、資料獲取、工程計算平臺等。

最基礎的Execution就是演算法做到什麼水準，特別是大體框架已知後，能快速實現，包括基礎演算法、場景資料、計算實驗平臺、產品應用等。比如，AlphaGo出來後，多快能複現；語音辨識多快能追上全球最好的結果。頂級的Execution，不是開源的演算法平臺可以彌補。特定領域的專家能幫助團隊快速提高對應領域Execution的水準。這個層面，中國團隊應該是世界一流的。Google如果是世界第一的話，不論是下棋、人臉識別、語音辨識等，中國的水準應該不會比 Facebook、Microsoft、Apple、Amazon等差，甚至某些方面稍強些。大部人比較技術，基本就在這個層次。但更重要的、威力更大的是上面的兩個層次。

再往上一層是Insight，考察對技術的深刻認知。包括演算法模型的數學解釋、客觀世界分佈規律的獨到見解。Insight指導如何使用資料、計算力（就是指導如何使用演算法甚至創新演算法）。這層決定能不能比Google做得更好，或者能保持同一發展節奏。假定擁有深度學習演算法框架、海量資料在同樣水準，但是大家對演算法性能調教還有巨大差距。以人臉識別為例，我們使用了2億張人臉圖片（幾十億張圖片的子集）訓練，有效模型參數達到10億量級，利用對人臉這個物件的屬性先驗的合理假設，包括光照、年齡、種族、運動模糊、成像解析度等，模型定制、資料如何組合、計算如何加速在性能調優和模型學習效率上（就是上面提到的Execution）都有重大差異。這就是為什麼擁有演算法、算力、資料條件的互聯網巨頭也不見得能在單項AI任務上能做到全球前三。

再就是Vision，預測發展趨勢、定義未來方向，想像對生活、生產的影響。這除了需要對技術的深刻理解，還需要對技術的創新能力，以及技術商業價值的想像力、創造力。技術的遠見，回答AI的場景在哪以及多快到來。

強的Execution，Insight肯定不錯，但可能毫無Vision；最強的Vision，Insight肯定一流，但Execution可能很差。VIE都很強的團隊全球極其稀缺。

用深度學習領域最強的兩位大師Hinton和LeCun談一下我的感受。在2010年前，學術界不少人已經在談大資料對機器學習的重要性，Hinton團隊2012年在LeCun發明的演算法基礎上，用了百萬的訓練資料，在ImageNet上取得世界級的突破性進展；同一時期，LeCun團隊只用了不到十萬的資料。但是在Hinton公佈ImageNet結果的頭兩個月，LeCun團隊沒法重現Hinton用自己演算法的實驗結果。在Hinton公佈演算法實現和技巧後，LeCun團隊的結果就輕鬆超過了Hinton團隊的水準。

兩位大師都擁有超一流的Vision，在深度學習方向上堅持三十年。但是他們Vision的差別以及以此帶來的信念差別使得Insight的差別（是否追求更深刻見解）在當時可能是巨大的，對深度學習演算法發揮的突破條件包括訓練資料規模、模型正則化實現、activation function選取、GPU計算等的理解還有顯著差異。這些在當時，原理還不清楚時，可能完全是憑著Hinton（包括那一期超強的博士生）的直覺。這種Insight的差距，使得LeCun團隊已知所用演算法框架和目標性能但未知關鍵實現時，也不能重現結果。但之後，LeCun團隊擁有更好的Execution（大規模系統性調優），能在短時間內演算法性能超過。這種最牛高手間信念的微妙差異，到底來源於什麼，值得深思。

為什麼Vision很重要？就像雷達，對別人來說是盲區，Vision讓你看見，看見所以相信，相信所以平靜。不僅以此獲得戰略優勢，還有定力，排除誘惑和干擾。

Vision如何辨別呢？非常難，甚至幾乎不可能，只能由同樣有Vision的人欣賞。就像taste難以打分一樣，只能由同樣有taste的人欣賞。Vision帶你看到的，就是99%的專家同行都看不到、不相信的。所以，偉大往往和誤解相伴。LeCun在深度學習被實際測試資料驗證前，也很難被美國主流學術圈認可，甚至發表頂級會議都不是簡單的事，可如今，幾乎所有的論文都要貼上深度學習的標籤。

但是判斷過濾沒有Vision的團隊，倒是有跡可循。一般來說，無論學術還是創業，偉大的突破，都需要多年前後一致的投入和深耕。隔年換領域或者什麼模式都在做的（垂直、平臺等），歸類為沒有Vision應該沒什麼問題。

有了VIE的拆解，我認為，AI新時代的壁壘只有人，最頂級的人。領軍人物對AI技術和商業邊界的未來分佈判斷無法替代，決定AI發展基本要素（演算法、算力、資料和場景）的所需程度和權重。擁有頂級Execution和Insight的團隊，最知道對演算法有效的資料在哪、如何標注使用。擁有頂級Insight和Vision的團隊，最早知道技術的突破帶來最具商業價值的場景在哪以及何時到來。

AI未來：沒有歷史可以借鑒，也沒有權威能夠預測

談了AI發展，技術如何解構，談談AI的未來。基於深度學習的AI新時代，大大不同於30年歷史上的AI，這是被各種應用、在實際場景、大規模資料驗證過性能的技術，而不只是理論或概念。儘管過去5年的發展，對得起人們的期待，今天，還有不少人擔心新AI像過去一樣很快會退潮。但我認為，AI新時代只是開始。

我從新AI的三個特性簡要闡述：

1、AI是全新的維度。這是最重要的，決定AI到底是多大的事。

AI技術如何創新發展，如何變革商業，沒有歷史可以借鑒，也沒有權威能準確判斷。AI不僅僅是一個技術，AI突破還能突破所有技術包括人機交互、搜索、機器人、晶片計算、醫學、製藥等科學領域的幾乎所有學科。

2、AI的發展速度快、跳躍性強

從S曲線中，可以看到過去5年，AI的發展及其迅猛，單門類（人臉識別）演算法有了萬倍的增長。但我對未來更加憧憬，即S曲線中2018年之後的曲線有多陡。AI發展帶來的多維度技術和各場景深度結合、疊加會帶來更有衝擊力的體驗。從多技術維度來說，從視覺，到聽覺、語義理解、運動控制會在之後幾年都會快速突破；和晶片結合，端智慧滲透到與用戶的最後30公分的交互體驗，從Internet Of Things向Internet Of Intelligence跨越，讓智能無處不在。

3、AI領先一步，會帶來巨大勢能

在S曲線中，處在不同位置的團隊，優勢不只是橫軸時間的差距，而是技術領先帶來的累積效應（曲線積分）以及更多元（多條AI技術曲線）AI技術的疊加，這使得AI能有跨行業的摧毀性。不僅僅決定某個行業，第一名和第二名的差距或位置關係，還能使得AI領先的行業的領導者撬動AI意識落後的行業。

AI未來，無與倫比；因為看見，所以相信。

是反恐、出入境業務對識別的覆蓋面要求是很很高的。