您的位置:首頁>科技>正文

漆遠:小資料學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵

新智元報導

“螞蟻金服是一家技術驅動的公司, 我們做的事情, 是使 AI 技術成為普惠金融的支點。 ”螞蟻金服副總裁、首席科學家漆遠博士, 在有中國“ AI 春節”之稱的新智元2017開源·生態AI技術峰會上表示。

大約一個月前, 在北大“人工智慧前沿”系列課程的講堂上, 作為特邀演講人的漆遠已經將 AI 技術和普惠金融的概念結合到了一起。 在新智元 AI 技術峰會上, 漆遠再次強調:“螞蟻金服核心的關鍵點在於普惠的金融服務,

而實現普惠金融服務依靠的技術就是人工智慧和大資料。 ”

場景!場景!場景!

從技術到落地, AI 的場景化應用成為本次新智元技術峰會上的一個關鍵字。 漆遠指出, 在杭州, 螞蟻金服和城市政府直接對接了超過100項市政服務, 比如司機闖紅燈, 可以通過支付寶進行直接賠付。 “再舉幾個例子, 支付寶可以在杭州城區購買地鐵票;當芝麻信用超過一定分數時, 人們可以免押金入住酒店, 免押金租房;人們可以使用支付寶在中醫院掛號, 可以乘坐公共汽車。 其實所有這一切, 都是依託場景。 ”

而杭州的變化只是中國萬千城市的一個縮影, “在浙江, 一年有6億人次享受城市服務, 全部通過手機實現。 例如, 95%的超市、便利店可以用支付寶進行付款。 這些資料背後, 可以看到一個人的吃穿住行等方方面面。 如此觸達的條件實際上為我們奠定了非常堅實的基礎, 能夠讓我們把技術和場景結合起來, 提供真正有價值的服務。 ”

“大家會問, 講 AI 為什麼要講這些?最近有人寫了一篇文章, 講 AI 的娛樂化趨向。 這其實是講了一個 common sense, 就是做 AI 離不開場景……我相信技術是第一生產力, 關鍵是怎麼落地, 在商業場景裡發揮出價值。 ”

漆遠認為, 一個非常重要的經驗是, “不要為了做技術而做技術, 一定要想到有商業價值的、有資料的場景, 場景非常關鍵。 否則, 只是在公司裡面閉門造車, 做了也沒有用。 如果是初創公司, 這公司已經註定要完蛋。 這其實是非常關鍵的一個point。 比如說我在阿裡做第一個項目, 是做參數伺服器, 就是分散式機器學習平臺。 但是我們找的第一個應用點特別簡單, 大家猜猜什麼場景會有商業價值?對,就是廣告。”

“於是我們就在CTR預估上採用了這個系統。因為這個系統只要能提升1‰,就有很多收益;提升1% 的收益就更多。我們當時做這個項目,應用在雙11即時預測的使用者產品推薦上,後來變成了阿裡巴巴第一個大規模機器學習平臺。所以一開始你要找到一個商業價值的落地點,如果我們做參數伺服器,同樣的技術,就是死路一條。在公司,在商業環境中,這肯定是沒有前途的。”

“又比如深度學習技術的應用。它帶來了圖像識別、語音辨識、NLP 等領域的長足進步,但是它的落地點在哪裡?這就要問你的核心價值在哪裡。一開始我們就很具體,就做客服。大家可能覺得這不是一個sexy的行業,但是真正能做好就有巨大的商業價值。這同樣是要在場景中體現能力。”

而對於場景和資料、雲計算以及演算法的關係,漆遠論述到,“其實很多公司今天都正在、或者已經完成國內互聯網領域的上半場角逐。之後,大家開始真正競爭的是雲計算的能力,比如阿裡,比如螞蟻金服的雲,比如微軟和Amazon的雲,而這背後其實就是資料。比拼的是誰的場景資料本身有價值。其實阿裡內部有一個比喻:資料是土壤,土壤上要蓋高樓,才能產生價值,這要靠演算法,靠人工智慧。要真正能把價值體現出來,而不是坐在金山上吃饅頭。我們需要通過人工智慧,讓使用者產生的社會資料發揮價值,並將有價值的服務帶給使用者。場景的 vertical domain 非常重要。場景一邊為我們帶來資料,一邊為使用者帶來真正有價值的服務。”

從智慧客服到保險業

在金融服務這一大場景下,漆遠特別以其中的智慧客服、個性化產品和資訊推薦、保險及自動核賠等多個小場景為例,展現了AI 技術的應用及產生的價值。

“螞蟻金服正在構建人工智慧方方面面的能力和應用,我們在能力上的配備還是比較標準的——機器學習、自然語言處理(NLP)、圖像識別、語音辨識,尤其是語音辨識,完全使用的是阿裡集團自己的語音辨識能力。螞蟻金服也在開發許許多多的商業應用。”

“在今天有件事情已經變成共識——如果做平臺,沒有業務都是會死掉的,這是我們當時戰略官的名言。在螞蟻金服,我們有非常豐富的場景,從信用芝麻分、租車到貸款消費貸、風險控制、行銷、智慧助理等等,技術本身、資料和商業場景有非常好的結合。”

智能客服

“智慧助理在螞蟻金服有很多的例子,聊天機器人不是我們的重點,我們的重點在產品知識問答,比如金融產品,完成訂電影票或者旅行甚至訂餐,還有金融服務,比如選擇哪個保險比較適合。

“在螞蟻金服,一個標準化的機器人應用就是客服。客服專案在螞蟻金服可以說是第一個標杆性的人工智慧落地專案,它一開始是典型的人力服務工作,在成都客服中心有幾千人,每年雙11接電話非常繁忙。我們在2015年要做智慧客服,使用人工智慧演算法提升整體客服效率。我們做了大約半年,自助率從60%一下子升到94%,2016年自助率高達97%,去年雙11最忙的時候,客服小二實際上非常輕鬆。今年我們有了一個新的標杆性的指標,兩三個星期前剛剛做到。這個新的指標就是不光要自助率高,還要把服務的品質提高,我們要更好地解決問題。兩周前,我們已經做到機器人的問題解決率達到了73%,超過了人的線上解決率71%。這是一個標杆的提升。

PPT上顯示的是三個簡單的真實APP展示,展示了機器人本身是怎麼來回答問題的;第二,在你沒有問問題之前,不靠語音信號或者NLP輸入資訊,而是通過使用者的行為軌跡自動判斷當前可能的問題在哪裡,系統會根據使用者的行為軌跡做出時間訓練模型進行分析;第三,人工+智慧。我並不是說用機器全部代替人,而是什麼時候用人,怎麼用機器把人的效率提升。這裡我以我們的客服小二和工作臺為例,怎麼把好的小二的經驗變成工作臺自身的一部分,利用他們幫助其他的小二工作。這就叫智慧工作臺,大規模提升了人類“小二”的服務品質。不光減少了人力,這個項目做了不到半年時間,我們公司統計減去人的成本,減去GPU的成本,公司省下來一個億多的資金。在螞蟻金服整體業務迅速擴張的情況下,我們的客服部門人員一直在減少,而所有其它業務人員都在增加——只有客服人員一直在減少,可以看到這個技術的效用。”

個性化產品和資訊推薦

“個性化產品和資訊推薦,這裡面有很多資料的融合問題,比如電商行為購買資料如何能夠説明財富升值、資訊閱讀能不能幫助我們支付消費等等。

這裡面有一個比較簡單的思想,就是借助我們大量的資料來源,建立比較大規模的深度學習網路,把所有資料做一個隱含的表達,在一個空間裡面把很多資料來源融合到一起。基於此,可以保護資料的隱私,也可以做出很多有意思的應用。

通過使用者屬性可以分析他的閱讀偏好,聚寶頭條諮詢和社區觀點推薦,比原來的演算法直接提升了六倍的點擊率。大家看PPT,這裡顯示的是使用者對緊身褲、連衣裙選擇偏好,漂亮女孩有什麼共性?其中一個是她們經常穿比較緊身的牛仔褲,她們中的很多人會購買手機螢幕服務,所以我們為這一人群開發了碎屏險的保險產品。這是個性化產品非常碎片化、但又非常長尾的應用的例子。”

保險及自動核賠

“保險業非常注重大資料應用,從人群定位到識別、從反欺詐到風險定價等等,從頭到尾貫穿著資料。運費險是一個現在比較經典的例子,我買東西要退,保險費只要一塊多錢,但是每個人不一樣,我們做到了完全個性化。一開始這並不是差異化的,而是一口價,所以最初這個生意一直賠錢,後來我們把一個廣告的演算法用到保險裡面,建立了一個人退貨概率和產品之間的關係——這其實和很多廣告非常類似,一個人點擊廣告也有概率——計算之後產生新的保險產品,這個保險產品一天盈利就達到幾千萬。這是典型的碎片化但是極為廣泛的應用的例子。”

“自動核賠,用戶在手機上報被盜32塊錢。人臉識別之外下面還有很多演算法和模型自動判斷是不是您,其實並不是只做一個人臉識別。整體能夠大幅度提升效率。”

一些挑戰

對於 AI 技術應用中一些特別需要注意的問題和挑戰,漆遠此前有過精彩論述。

基於加強學習的對話系統

“其實在對話系統沒有很多資料的情況下,一開始你很難做加強學習,有可能你就只能做一個規則技術。但再往後面,可能當你需要完成任務,以任務為目標的時候,你在做 task completion 的時候,就像下圍棋,你要完成任務,贏別人。這時候你和用戶其實是 interation。這個時候你可以考慮,怎麼來介入。大家也知道翻譯模型,對話系統很多用翻譯模型,我們叫做 seq2seq,也就是sequence to sequence。假如有一堆 sequence,假如是多輪對話,你能不能應付,就是一個 sequence 到另一個 sequence,再到另一個 sequence。這其實都是對技術的挑戰,對資料收集的挑戰,對資料標注的挑戰。”

小資料學習

“這個問題現在也越來越明顯了。其實今天講大資料,有點令人誤會。就很多場景下問題的複雜度而言,其實資料並不大。我們要分析風雲變幻的市場。就如剛才雷老師說,你看一個公司過去兩年的交易資料,其實一點不多,把季報全都加進來。其實一年就4份財報。在資料並不多的情況下,怎麼能夠把這個小資料學習的問題解決?”

推理和知識圖譜

很多問題需要你做推理,如果A發生了,到B,B發生,回到C,你怎樣把推理過程做好?今天,大家做了很多深度學習,比如說一個文本裡面,A會導致B的發生,你把這個相關的答案找到。但是並不能推理出B到C和C到D。如果做知識圖譜,其實跟深度學習沒什麼關係,今天的深度學習圖譜其實是建了一個圖模型,然後把這個點一個一個往下推,而這兩個框架是完全分離的框架,這其實也是分裂的。大家能不能真正有一套機制,能有推理的功能?這其實既有理論上的價值,更有商業上的價值,巨大的價值。剛才已經提到知識圖譜了,大家其實現在有一系列演算法講知識圖譜,knowledge graph,但是學術上發表的很多文章,工業上暫時是沒法用的。有一些演算法——我就不說哪個演算法了,有的還是我好朋友寫的——很難應用在工業上,為什麼呢?因為它基本上不能達到需要的準確性。

無監督學習

“另外,無監督學習也喊得比較響。這是跟小資料學習相關的。很多資料是有標注的,還有很多資料沒有標注,那怎麼能夠把沒有標注的資料都用起來,真正做到把資料的所有價值都真正體現出來?當然,在無監督學習和有監督學習中間,還有一個半監督學習(有一部分有標注)。我們怎麼把它們結合起來一起進行學習?這也是一個在今天的背景下非常有意義的方向。”

資料和模型的壓縮

“從工業界來講,更實用的是資料和模型的壓縮。剛才有人問我說深度學習能不能用於量化交易,尤其是高頻。我說高頻的話,如果深度學習有好幾層的模型,比如做圖像有 100 多層。而高頻交易希望在千分之一秒或者萬分之一秒之內把交易完成,這兩個互相矛盾。工業很多應用非常在乎即時性,不能有大量 delay。怎麼能做得快呢?這就需要模型的壓縮,要用 hashing 等技術,這也是非常好的方向。”

漆遠在演講的最後總結道:我們在做從移動互聯網到雲計算到端的擴展。螞蟻金服核心的關鍵點在於普惠的金融服務,而實現普惠金融服務依靠的技術就是人工智慧和大資料。

3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括“BAT”在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文,查閱文字版大會實錄

大家猜猜什麼場景會有商業價值?對,就是廣告。”

“於是我們就在CTR預估上採用了這個系統。因為這個系統只要能提升1‰,就有很多收益;提升1% 的收益就更多。我們當時做這個項目,應用在雙11即時預測的使用者產品推薦上,後來變成了阿裡巴巴第一個大規模機器學習平臺。所以一開始你要找到一個商業價值的落地點,如果我們做參數伺服器,同樣的技術,就是死路一條。在公司,在商業環境中,這肯定是沒有前途的。”

“又比如深度學習技術的應用。它帶來了圖像識別、語音辨識、NLP 等領域的長足進步,但是它的落地點在哪裡?這就要問你的核心價值在哪裡。一開始我們就很具體,就做客服。大家可能覺得這不是一個sexy的行業,但是真正能做好就有巨大的商業價值。這同樣是要在場景中體現能力。”

而對於場景和資料、雲計算以及演算法的關係,漆遠論述到,“其實很多公司今天都正在、或者已經完成國內互聯網領域的上半場角逐。之後,大家開始真正競爭的是雲計算的能力,比如阿裡,比如螞蟻金服的雲,比如微軟和Amazon的雲,而這背後其實就是資料。比拼的是誰的場景資料本身有價值。其實阿裡內部有一個比喻:資料是土壤,土壤上要蓋高樓,才能產生價值,這要靠演算法,靠人工智慧。要真正能把價值體現出來,而不是坐在金山上吃饅頭。我們需要通過人工智慧,讓使用者產生的社會資料發揮價值,並將有價值的服務帶給使用者。場景的 vertical domain 非常重要。場景一邊為我們帶來資料,一邊為使用者帶來真正有價值的服務。”

從智慧客服到保險業

在金融服務這一大場景下,漆遠特別以其中的智慧客服、個性化產品和資訊推薦、保險及自動核賠等多個小場景為例,展現了AI 技術的應用及產生的價值。

“螞蟻金服正在構建人工智慧方方面面的能力和應用,我們在能力上的配備還是比較標準的——機器學習、自然語言處理(NLP)、圖像識別、語音辨識,尤其是語音辨識,完全使用的是阿裡集團自己的語音辨識能力。螞蟻金服也在開發許許多多的商業應用。”

“在今天有件事情已經變成共識——如果做平臺,沒有業務都是會死掉的,這是我們當時戰略官的名言。在螞蟻金服,我們有非常豐富的場景,從信用芝麻分、租車到貸款消費貸、風險控制、行銷、智慧助理等等,技術本身、資料和商業場景有非常好的結合。”

智能客服

“智慧助理在螞蟻金服有很多的例子,聊天機器人不是我們的重點,我們的重點在產品知識問答,比如金融產品,完成訂電影票或者旅行甚至訂餐,還有金融服務,比如選擇哪個保險比較適合。

“在螞蟻金服,一個標準化的機器人應用就是客服。客服專案在螞蟻金服可以說是第一個標杆性的人工智慧落地專案,它一開始是典型的人力服務工作,在成都客服中心有幾千人,每年雙11接電話非常繁忙。我們在2015年要做智慧客服,使用人工智慧演算法提升整體客服效率。我們做了大約半年,自助率從60%一下子升到94%,2016年自助率高達97%,去年雙11最忙的時候,客服小二實際上非常輕鬆。今年我們有了一個新的標杆性的指標,兩三個星期前剛剛做到。這個新的指標就是不光要自助率高,還要把服務的品質提高,我們要更好地解決問題。兩周前,我們已經做到機器人的問題解決率達到了73%,超過了人的線上解決率71%。這是一個標杆的提升。

PPT上顯示的是三個簡單的真實APP展示,展示了機器人本身是怎麼來回答問題的;第二,在你沒有問問題之前,不靠語音信號或者NLP輸入資訊,而是通過使用者的行為軌跡自動判斷當前可能的問題在哪裡,系統會根據使用者的行為軌跡做出時間訓練模型進行分析;第三,人工+智慧。我並不是說用機器全部代替人,而是什麼時候用人,怎麼用機器把人的效率提升。這裡我以我們的客服小二和工作臺為例,怎麼把好的小二的經驗變成工作臺自身的一部分,利用他們幫助其他的小二工作。這就叫智慧工作臺,大規模提升了人類“小二”的服務品質。不光減少了人力,這個項目做了不到半年時間,我們公司統計減去人的成本,減去GPU的成本,公司省下來一個億多的資金。在螞蟻金服整體業務迅速擴張的情況下,我們的客服部門人員一直在減少,而所有其它業務人員都在增加——只有客服人員一直在減少,可以看到這個技術的效用。”

個性化產品和資訊推薦

“個性化產品和資訊推薦,這裡面有很多資料的融合問題,比如電商行為購買資料如何能夠説明財富升值、資訊閱讀能不能幫助我們支付消費等等。

這裡面有一個比較簡單的思想,就是借助我們大量的資料來源,建立比較大規模的深度學習網路,把所有資料做一個隱含的表達,在一個空間裡面把很多資料來源融合到一起。基於此,可以保護資料的隱私,也可以做出很多有意思的應用。

通過使用者屬性可以分析他的閱讀偏好,聚寶頭條諮詢和社區觀點推薦,比原來的演算法直接提升了六倍的點擊率。大家看PPT,這裡顯示的是使用者對緊身褲、連衣裙選擇偏好,漂亮女孩有什麼共性?其中一個是她們經常穿比較緊身的牛仔褲,她們中的很多人會購買手機螢幕服務,所以我們為這一人群開發了碎屏險的保險產品。這是個性化產品非常碎片化、但又非常長尾的應用的例子。”

保險及自動核賠

“保險業非常注重大資料應用,從人群定位到識別、從反欺詐到風險定價等等,從頭到尾貫穿著資料。運費險是一個現在比較經典的例子,我買東西要退,保險費只要一塊多錢,但是每個人不一樣,我們做到了完全個性化。一開始這並不是差異化的,而是一口價,所以最初這個生意一直賠錢,後來我們把一個廣告的演算法用到保險裡面,建立了一個人退貨概率和產品之間的關係——這其實和很多廣告非常類似,一個人點擊廣告也有概率——計算之後產生新的保險產品,這個保險產品一天盈利就達到幾千萬。這是典型的碎片化但是極為廣泛的應用的例子。”

“自動核賠,用戶在手機上報被盜32塊錢。人臉識別之外下面還有很多演算法和模型自動判斷是不是您,其實並不是只做一個人臉識別。整體能夠大幅度提升效率。”

一些挑戰

對於 AI 技術應用中一些特別需要注意的問題和挑戰,漆遠此前有過精彩論述。

基於加強學習的對話系統

“其實在對話系統沒有很多資料的情況下,一開始你很難做加強學習,有可能你就只能做一個規則技術。但再往後面,可能當你需要完成任務,以任務為目標的時候,你在做 task completion 的時候,就像下圍棋,你要完成任務,贏別人。這時候你和用戶其實是 interation。這個時候你可以考慮,怎麼來介入。大家也知道翻譯模型,對話系統很多用翻譯模型,我們叫做 seq2seq,也就是sequence to sequence。假如有一堆 sequence,假如是多輪對話,你能不能應付,就是一個 sequence 到另一個 sequence,再到另一個 sequence。這其實都是對技術的挑戰,對資料收集的挑戰,對資料標注的挑戰。”

小資料學習

“這個問題現在也越來越明顯了。其實今天講大資料,有點令人誤會。就很多場景下問題的複雜度而言,其實資料並不大。我們要分析風雲變幻的市場。就如剛才雷老師說,你看一個公司過去兩年的交易資料,其實一點不多,把季報全都加進來。其實一年就4份財報。在資料並不多的情況下,怎麼能夠把這個小資料學習的問題解決?”

推理和知識圖譜

很多問題需要你做推理,如果A發生了,到B,B發生,回到C,你怎樣把推理過程做好?今天,大家做了很多深度學習,比如說一個文本裡面,A會導致B的發生,你把這個相關的答案找到。但是並不能推理出B到C和C到D。如果做知識圖譜,其實跟深度學習沒什麼關係,今天的深度學習圖譜其實是建了一個圖模型,然後把這個點一個一個往下推,而這兩個框架是完全分離的框架,這其實也是分裂的。大家能不能真正有一套機制,能有推理的功能?這其實既有理論上的價值,更有商業上的價值,巨大的價值。剛才已經提到知識圖譜了,大家其實現在有一系列演算法講知識圖譜,knowledge graph,但是學術上發表的很多文章,工業上暫時是沒法用的。有一些演算法——我就不說哪個演算法了,有的還是我好朋友寫的——很難應用在工業上,為什麼呢?因為它基本上不能達到需要的準確性。

無監督學習

“另外,無監督學習也喊得比較響。這是跟小資料學習相關的。很多資料是有標注的,還有很多資料沒有標注,那怎麼能夠把沒有標注的資料都用起來,真正做到把資料的所有價值都真正體現出來?當然,在無監督學習和有監督學習中間,還有一個半監督學習(有一部分有標注)。我們怎麼把它們結合起來一起進行學習?這也是一個在今天的背景下非常有意義的方向。”

資料和模型的壓縮

“從工業界來講,更實用的是資料和模型的壓縮。剛才有人問我說深度學習能不能用於量化交易,尤其是高頻。我說高頻的話,如果深度學習有好幾層的模型,比如做圖像有 100 多層。而高頻交易希望在千分之一秒或者萬分之一秒之內把交易完成,這兩個互相矛盾。工業很多應用非常在乎即時性,不能有大量 delay。怎麼能做得快呢?這就需要模型的壓縮,要用 hashing 等技術,這也是非常好的方向。”

漆遠在演講的最後總結道:我們在做從移動互聯網到雲計算到端的擴展。螞蟻金服核心的關鍵點在於普惠的金融服務,而實現普惠金融服務依靠的技術就是人工智慧和大資料。

3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括“BAT”在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文,查閱文字版大會實錄

Next Article
喜欢就按个赞吧!!!
点击关闭提示