XSUMMIT｜商湯科技CEO徐立：看得見的人工智慧人機大戰和突破極限

為進一步推動中國乃至全球科技創新，鼓勵並扶持創新發明者，保障廣大創新成果得到轉化及應用， 2017年3月17日在北京國家會議中心隆重舉辦XSUMMIT未來科技峰會(簡稱：XSUMMIT峰會)。第六屆全球遊戲大會暨XSUMMIT峰會的主題：“連接未來”，是科技創新與文化創意方面的年度國際“雙創”盛典。本屆XSUMMIT峰會議題圍繞人工智慧等前沿科技熱點展開，邀請到多位極具聲望與影響力的科技界大牛到場分享，共同展望未來。

商湯科技CEO徐立以“看得見的人工智慧人機大戰和突破極限”為主題展開精彩分享，以下為演講實錄：

感謝主持人，感謝主辦方的邀請。我給大家介紹一下我今天講的主題，為什麼叫“看得見的人工智慧”?是因為我們商湯科技做的就是機器視覺方面的內容，是人工智慧的一個分支。但是比起其他行業來說，它看得見，摸得著。我想講的就是人機大戰的這麼一個話題，

在人工智慧裡面一個重要的作用。

我們也知道人工智慧三起兩落，很多人問我人工智慧的三個波峰到底是一個臨時的還是是一個趨勢?特別是問到我說第一次，第二次究竟是什麼原因?造成什麼樣的結果?我想了半天，我說這個得去問我爸，一九五幾年的事，我也不是很清楚。

我們怎麼定義人工智慧的幾個階段?我現在這麼來看，先到Google上進行了一個搜索。大家知道人工智慧這件事其實跟最近的信息技術，叫深度學習相關的。我們所謂的人工智慧第三波的浪潮到底是因何而起的?深度學習從2006年開始，於是我就把整個深度學習關鍵字的搜索量從2006年開始做了一個檢索，發現一個很有意思的事情。它在2012-2013年的時候突然之間爆發的，

潮流的變化並不是像剛才大家畫的那張圖那樣慢慢上升起來的，它是一個變化。在那個時間點的深度學習被應用到機器視覺上面去，在大規模的視覺物體識別當中取得了突破，達到了前所未有的高度。我們可以理解在人工智慧裡面把一些核心技術應用到機器視覺的範疇可能會大規模地應用。當然，這裡面還有另外一種可能性，就是在那個階段我們計算能力GPU被正式應用到機器學習當中。

所以和那張趨勢的圖片不同，我認為很多人工智慧的變化可能是一個突變，我把它定為三個階段。第一個階段，人工智慧不如人的階段，就是技不如人。作為生產力工具，沒法大規模展開。第二，超過普通人的階段。

第三個階段，超越專家的階段。我稍微解釋一下這幾個階段不同的地方。我們在2010年之前，在沒有特別好的工具的情況下，就是沒有像深度學習那樣處理大資料的工具情況下，我們做出來的系統通常沒有人的能力強。如果說一個專家指導了機器，按照每個規則做事情，通常比較難操作，它的極限也很大。所以，在那個階段好像我們多了一個猩猩，能夠幫我們幹活，猩猩大規模地取代人是很難的。可能從2010年之前，我們的資料量突然之間積累到一定程度，有了處理大資料能力的工具，我們可以從人工指導智慧變成一種純資料驅動的智慧。從資料中總結出規律，資料驅動的智慧就不受人的影響，可以做到第二個階段，

叫超過普通人的階段。為什麼強調超過普通人?是因為機器其實是需要指導的，比如做人臉識別，需要人做一個指導，或者作為機器的輸入這樣才能夠學會這個經驗知識。

所幸的是，我們在過去的十年裡可能積累了大量的資料，所以只要我們找一些這樣標準的人員，用普通人的能力就能夠幫助機器學會這些技能。這裡講所謂的普通能力是什麼?比如我們做圖像識別，做人臉識別。人臉識別的能力大家與生俱來，我家樓下的保安，樓裡面住幾千人，看到誰都能知道誰家小孩怎麼樣，七大姑八大姨怎麼樣了，說明這個技能不需要長期的訓練，所以這是我們說的第二個階段。但是，過了這個階段，人工智慧大規模地爆發。因為它可以取代這樣的勞動力，我們得到的是生產力工具的提升，這就是我們現在所處的這個階段，是一種爆發式增長的階段。所以我才能解釋剛才為什麼是一個突變的階段，是因為到了那個階段突然之間會發現，已經可以達到這樣的限制。

第三個階段，專家的階段，為什麼說專家的階段和第二個階段來說有差別呢?因為我們要讓機器學會，首先要有知識的指導。我們講純資料驅動智慧，需要從大量的資料樣本當中給出的指導和訓練。那我們說多少資料呢?像人臉，我們數億道資料做這些訓練。它的知識沒有辦法去幫助機器很快地去演進，去突破。所以，對於演算法的要求和對於資料的要求使得我們超過專家的階段還沒有達到。但是真正超過專家之後，我們確實可以達到一個服務的升級，以前的私有資源將變成不再稀有，這可能是人工智慧下一個階段的一大突破。

其中有一個例外，講到人機大戰，什麼是例外呢Alpha go學圍棋這件事情。圍棋也是需要長時間積累，也是專家經驗。為什麼圍棋能突破呢?是因為人類有史以來的這種贏局都已經被記錄下來了，資料都已經有了，所以機器可以很快的開始。如果沒有那些資料，Alpha go絕對不可能成功，所以這就是專家的經驗有沒有被很好地記錄下來，這就取決於我們能不能達到專家的水準。退回來講，我們做技術的核心點是什麼?我們在做一件超人的活，一定要達到第二個階段，超過普通人，很多人不信。怎麼樣超過普通人，加上機器視覺的兩個方向。一個是成像，代表眼睛，輸入。另外一個是理解，代表大腦，看完東西得消化、學會，其實機器視覺的領域我們一直做的就是超越普通人。

這是我做過的一篇文章用過的，也是我一直比較喜歡的圖片。讓大家猜一猜這個模糊的圖片，它是一張明信片，這張明信片到底是哪個城市呢?有人說這是多倫多城市。機器可以從這樣一張單張的模糊照片當中把圖像恢復。剛才只是看的一小部分，機器能不能有更多創造性的部分。這是另外一個位置，美國的地表性建築。國會大廈在bing的搜尋引擎進行搜索，搜索出來關於國會大廈的畫。第三幅是國會大廈現代畫，是一個美國人畫的，前面有一個草坪，上面有一個人，不知道在幹什麼。然後就這麼一幅畫是名畫。機器同樣畫的是國會大廈，這是演算法畫的。我讓很多人進行了一個比較，有一半以上的人選擇了右邊這幅，覺得右邊這幅好一點，畫的很有意境。所以，機器在一些創造性的事情上也已經做到可以超越人。

下來給大家看一個機器超越人的實景，人機大戰。這張圖是一個著名的圖片，叫幻覺。看上去好像是PS的。拍這個照片的時候那時候還沒有PS，怎麼做到一個人，一個這麼大，一個這麼小。其實是這麼拍的，房子裡面是斜的，人一前一後，近大遠小造成這個結果。人看這張照片可能有點迷惑，搞不清楚，所以才叫幻覺。機器怎麼看?機器看了以後說，這兩個人在不懂的層次上，根本不是在一個深度上，所以近大遠小，你忽悠不了機器。

另外一個例子，也不是PS的。機器說鞋子近一點，人遠一點，機器可以從一張照片裡面的細枝末節學到一些人肉眼所不能掌握的知識。它能幹嘛?有一個很有意思的相機，可以用單個鏡頭拍出來的照片先拍打後對焦，這也是一個現實的應用。

剛才講了看的部分，現在我們講理解這個部分。理解就更好理解了，因為跟人的大腦更接近。我們先講一下，大家對商湯的瞭解可能更多是人臉識別，我們是世界上第一支團隊把人臉識別做到超過人的。我們是從陌生人的識別開始。韓國小姐長的都一樣，但是機器可以從中找出一些人所不能掌握的規律和知識，用這種知識進行這樣一個識別，達到超過人的境界。機器超過人的時候，他帶來了真正的核心生產力工具的提升，效率的提升，從而改變整個行業。

舉幾個好玩的例子，我電腦裡面有很多電影、視頻，我現在想看誰的片子就看誰的片子。前段時間有一個龍套文化，收幾張照片，就可以把各種照片檢索出來。從門禁也好，從安防也好，都可以有這樣的應用。

再舉另外一個例子，機器能幹啥?機器還能夠做忽悠人的事，視頻當中如果說給你一張照片，咱們可以運用演算法，可以把人變成你想要的換臉技術，這事人也幹不了。

最後，給大家做一個測試。剛才講到識別，機器比人強，很多人不信。現在拿一張照片，這是一個美國明星。我放大了就是中間這張圖，右邊三幅圖中，大家覺得她是哪個人?機器可以做什麼?把最左邊這張圖變成最右邊的圖，可以從真正意義上把視覺復原。所以，現在人工智慧做的事情就是要超過人的準確度，大規模地進行生產力工具的提升。謝謝大家!

關於GMGC：

GMGC成立於2012年9月，是全球協力廠商移動遊戲行業組織，目前在全球擁有30多個國家或地區近300名會員企業，成員中包含開發商、發行商、服務商、投資商等。GMGC秉持“共建共用，合作共贏”的理念，為產業上下游企業搭建合作、交流、學習的平臺，促進產業共同發展。由GMGC主辦的全球遊戲大會(GMGC北京)、全球遊戲開發者大會暨天府獎盛典(GMGC成都)、亞洲移動遊戲大會(GMGC馬尼拉)、中國(昆山)數字娛樂節(GMGC昆山)每年分別在北京、成都、上海、深圳、昆山乃至亞洲各大城市舉辦，上述活動已經發展成為業界最具規模和影響力的行業盛會，產業風向標。同時，GMGC還提供全方位的專屬會員的服務專案，如創新沙龍、全球商務考察、CEO晚餐會、GMGC之夜等商務社交活動，幫助中外會員企業拓展業務及建立更多的夥伴關係並促進發展。

因為它可以取代這樣的勞動力，我們得到的是生產力工具的提升，這就是我們現在所處的這個階段，是一種爆發式增長的階段。所以我才能解釋剛才為什麼是一個突變的階段，是因為到了那個階段突然之間會發現，已經可以達到這樣的限制。

關於GMGC：