漆遠：小資料學習和模型壓縮存挑戰，場景成為 AI 技術發展關鍵

新智元報導

“螞蟻金服是一家技術驅動的公司，我們做的事情，是使 AI 技術成為普惠金融的支點。 ”螞蟻金服副總裁、首席科學家漆遠博士，在有中國“ AI 春節”之稱的新智元2017開源·生態AI技術峰會上表示。

大約一個月前，在北大“人工智慧前沿”系列課程的講堂上，作為特邀演講人的漆遠已經將 AI 技術和普惠金融的概念結合到了一起。在新智元 AI 技術峰會上，漆遠再次強調：“螞蟻金服核心的關鍵點在於普惠的金融服務，

而實現普惠金融服務依靠的技術就是人工智慧和大資料。 ”

場景！場景！場景！

從技術到落地， AI 的場景化應用成為本次新智元技術峰會上的一個關鍵字。漆遠指出，在杭州，螞蟻金服和城市政府直接對接了超過100項市政服務，比如司機闖紅燈，可以通過支付寶進行直接賠付。 “再舉幾個例子，支付寶可以在杭州城區購買地鐵票；當芝麻信用超過一定分數時，人們可以免押金入住酒店，免押金租房；人們可以使用支付寶在中醫院掛號，可以乘坐公共汽車。其實所有這一切，都是依託場景。 ”

而杭州的變化只是中國萬千城市的一個縮影， “在浙江，一年有6億人次享受城市服務，全部通過手機實現。例如， 95%的超市、便利店可以用支付寶進行付款。這些資料背後，可以看到一個人的吃穿住行等方方面面。如此觸達的條件實際上為我們奠定了非常堅實的基礎，能夠讓我們把技術和場景結合起來，提供真正有價值的服務。 ”

“大家會問，講 AI 為什麼要講這些？最近有人寫了一篇文章，講 AI 的娛樂化趨向。這其實是講了一個 common sense，就是做 AI 離不開場景……我相信技術是第一生產力，關鍵是怎麼落地，在商業場景裡發揮出價值。 ”

漆遠認為，一個非常重要的經驗是， “不要為了做技術而做技術，一定要想到有商業價值的、有資料的場景，場景非常關鍵。否則，只是在公司裡面閉門造車，做了也沒有用。如果是初創公司，這公司已經註定要完蛋。這其實是非常關鍵的一個point。比如說我在阿裡做第一個項目，是做參數伺服器，就是分散式機器學習平臺。但是我們找的第一個應用點特別簡單，大家猜猜什麼場景會有商業價值？對，就是廣告。”

“於是我們就在CTR預估上採用了這個系統。因為這個系統只要能提升1‰，就有很多收益；提升1% 的收益就更多。我們當時做這個項目，應用在雙11即時預測的使用者產品推薦上，後來變成了阿裡巴巴第一個大規模機器學習平臺。所以一開始你要找到一個商業價值的落地點，如果我們做參數伺服器，同樣的技術，就是死路一條。在公司，在商業環境中，這肯定是沒有前途的。”

“又比如深度學習技術的應用。它帶來了圖像識別、語音辨識、NLP 等領域的長足進步，但是它的落地點在哪裡？這就要問你的核心價值在哪裡。一開始我們就很具體，就做客服。大家可能覺得這不是一個sexy的行業，但是真正能做好就有巨大的商業價值。這同樣是要在場景中體現能力。”

而對於場景和資料、雲計算以及演算法的關係，漆遠論述到，“其實很多公司今天都正在、或者已經完成國內互聯網領域的上半場角逐。之後，大家開始真正競爭的是雲計算的能力，比如阿裡，比如螞蟻金服的雲，比如微軟和Amazon的雲，而這背後其實就是資料。比拼的是誰的場景資料本身有價值。其實阿裡內部有一個比喻：資料是土壤，土壤上要蓋高樓，才能產生價值，這要靠演算法，靠人工智慧。要真正能把價值體現出來，而不是坐在金山上吃饅頭。我們需要通過人工智慧，讓使用者產生的社會資料發揮價值，並將有價值的服務帶給使用者。場景的 vertical domain 非常重要。場景一邊為我們帶來資料，一邊為使用者帶來真正有價值的服務。”

從智慧客服到保險業

在金融服務這一大場景下，漆遠特別以其中的智慧客服、個性化產品和資訊推薦、保險及自動核賠等多個小場景為例，展現了AI 技術的應用及產生的價值。

“螞蟻金服正在構建人工智慧方方面面的能力和應用，我們在能力上的配備還是比較標準的——機器學習、自然語言處理（NLP）、圖像識別、語音辨識，尤其是語音辨識，完全使用的是阿裡集團自己的語音辨識能力。螞蟻金服也在開發許許多多的商業應用。”

“在今天有件事情已經變成共識——如果做平臺，沒有業務都是會死掉的，這是我們當時戰略官的名言。在螞蟻金服，我們有非常豐富的場景，從信用芝麻分、租車到貸款消費貸、風險控制、行銷、智慧助理等等，技術本身、資料和商業場景有非常好的結合。”

智能客服

“智慧助理在螞蟻金服有很多的例子，聊天機器人不是我們的重點，我們的重點在產品知識問答，比如金融產品，完成訂電影票或者旅行甚至訂餐，還有金融服務，比如選擇哪個保險比較適合。

“在螞蟻金服，一個標準化的機器人應用就是客服。客服專案在螞蟻金服可以說是第一個標杆性的人工智慧落地專案，它一開始是典型的人力服務工作，在成都客服中心有幾千人，每年雙11接電話非常繁忙。我們在2015年要做智慧客服，使用人工智慧演算法提升整體客服效率。我們做了大約半年，自助率從60%一下子升到94%，2016年自助率高達97%，去年雙11最忙的時候，客服小二實際上非常輕鬆。今年我們有了一個新的標杆性的指標，兩三個星期前剛剛做到。這個新的指標就是不光要自助率高，還要把服務的品質提高，我們要更好地解決問題。兩周前，我們已經做到機器人的問題解決率達到了73%，超過了人的線上解決率71%。這是一個標杆的提升。

PPT上顯示的是三個簡單的真實APP展示，展示了機器人本身是怎麼來回答問題的；第二，在你沒有問問題之前，不靠語音信號或者NLP輸入資訊，而是通過使用者的行為軌跡自動判斷當前可能的問題在哪裡，系統會根據使用者的行為軌跡做出時間訓練模型進行分析；第三，人工+智慧。我並不是說用機器全部代替人，而是什麼時候用人，怎麼用機器把人的效率提升。這裡我以我們的客服小二和工作臺為例，怎麼把好的小二的經驗變成工作臺自身的一部分，利用他們幫助其他的小二工作。這就叫智慧工作臺，大規模提升了人類“小二”的服務品質。不光減少了人力，這個項目做了不到半年時間，我們公司統計減去人的成本，減去GPU的成本，公司省下來一個億多的資金。在螞蟻金服整體業務迅速擴張的情況下，我們的客服部門人員一直在減少，而所有其它業務人員都在增加——只有客服人員一直在減少，可以看到這個技術的效用。”

個性化產品和資訊推薦

“個性化產品和資訊推薦，這裡面有很多資料的融合問題，比如電商行為購買資料如何能夠説明財富升值、資訊閱讀能不能幫助我們支付消費等等。

這裡面有一個比較簡單的思想，就是借助我們大量的資料來源，建立比較大規模的深度學習網路，把所有資料做一個隱含的表達，在一個空間裡面把很多資料來源融合到一起。基於此，可以保護資料的隱私，也可以做出很多有意思的應用。

通過使用者屬性可以分析他的閱讀偏好，聚寶頭條諮詢和社區觀點推薦，比原來的演算法直接提升了六倍的點擊率。大家看PPT，這裡顯示的是使用者對緊身褲、連衣裙選擇偏好，漂亮女孩有什麼共性？其中一個是她們經常穿比較緊身的牛仔褲，她們中的很多人會購買手機螢幕服務，所以我們為這一人群開發了碎屏險的保險產品。這是個性化產品非常碎片化、但又非常長尾的應用的例子。”

保險及自動核賠

“保險業非常注重大資料應用，從人群定位到識別、從反欺詐到風險定價等等，從頭到尾貫穿著資料。運費險是一個現在比較經典的例子，我買東西要退，保險費只要一塊多錢，但是每個人不一樣，我們做到了完全個性化。一開始這並不是差異化的，而是一口價，所以最初這個生意一直賠錢，後來我們把一個廣告的演算法用到保險裡面，建立了一個人退貨概率和產品之間的關係——這其實和很多廣告非常類似，一個人點擊廣告也有概率——計算之後產生新的保險產品，這個保險產品一天盈利就達到幾千萬。這是典型的碎片化但是極為廣泛的應用的例子。”

“自動核賠，用戶在手機上報被盜32塊錢。人臉識別之外下面還有很多演算法和模型自動判斷是不是您，其實並不是只做一個人臉識別。整體能夠大幅度提升效率。”

一些挑戰

對於 AI 技術應用中一些特別需要注意的問題和挑戰，漆遠此前有過精彩論述。

基於加強學習的對話系統

“其實在對話系統沒有很多資料的情況下，一開始你很難做加強學習，有可能你就只能做一個規則技術。但再往後面，可能當你需要完成任務，以任務為目標的時候，你在做 task completion 的時候，就像下圍棋，你要完成任務，贏別人。這時候你和用戶其實是 interation。這個時候你可以考慮，怎麼來介入。大家也知道翻譯模型，對話系統很多用翻譯模型，我們叫做 seq2seq，也就是sequence to sequence。假如有一堆 sequence，假如是多輪對話，你能不能應付，就是一個 sequence 到另一個 sequence，再到另一個 sequence。這其實都是對技術的挑戰，對資料收集的挑戰，對資料標注的挑戰。”

小資料學習

“這個問題現在也越來越明顯了。其實今天講大資料，有點令人誤會。就很多場景下問題的複雜度而言，其實資料並不大。我們要分析風雲變幻的市場。就如剛才雷老師說，你看一個公司過去兩年的交易資料，其實一點不多，把季報全都加進來。其實一年就4份財報。在資料並不多的情況下，怎麼能夠把這個小資料學習的問題解決？”

推理和知識圖譜

很多問題需要你做推理，如果A發生了，到B，B發生，回到C，你怎樣把推理過程做好？今天，大家做了很多深度學習，比如說一個文本裡面，A會導致B的發生，你把這個相關的答案找到。但是並不能推理出B到C和C到D。如果做知識圖譜，其實跟深度學習沒什麼關係，今天的深度學習圖譜其實是建了一個圖模型，然後把這個點一個一個往下推，而這兩個框架是完全分離的框架，這其實也是分裂的。大家能不能真正有一套機制，能有推理的功能？這其實既有理論上的價值，更有商業上的價值，巨大的價值。剛才已經提到知識圖譜了，大家其實現在有一系列演算法講知識圖譜，knowledge graph，但是學術上發表的很多文章，工業上暫時是沒法用的。有一些演算法——我就不說哪個演算法了，有的還是我好朋友寫的——很難應用在工業上，為什麼呢？因為它基本上不能達到需要的準確性。

無監督學習

“另外，無監督學習也喊得比較響。這是跟小資料學習相關的。很多資料是有標注的，還有很多資料沒有標注，那怎麼能夠把沒有標注的資料都用起來，真正做到把資料的所有價值都真正體現出來？當然，在無監督學習和有監督學習中間，還有一個半監督學習（有一部分有標注）。我們怎麼把它們結合起來一起進行學習？這也是一個在今天的背景下非常有意義的方向。”

資料和模型的壓縮

“從工業界來講，更實用的是資料和模型的壓縮。剛才有人問我說深度學習能不能用於量化交易，尤其是高頻。我說高頻的話，如果深度學習有好幾層的模型，比如做圖像有 100 多層。而高頻交易希望在千分之一秒或者萬分之一秒之內把交易完成，這兩個互相矛盾。工業很多應用非常在乎即時性，不能有大量 delay。怎麼能做得快呢？這就需要模型的壓縮，要用 hashing 等技術，這也是非常好的方向。”

漆遠在演講的最後總結道：我們在做從移動互聯網到雲計算到端的擴展。螞蟻金服核心的關鍵點在於普惠的金融服務，而實現普惠金融服務依靠的技術就是人工智慧和大資料。

3月27日，新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開，包括“BAT”在內的中國主流 AI 公司、600多名行業精英齊聚，共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文，查閱文字版大會實錄

大家猜猜什麼場景會有商業價值？對，就是廣告。”