CCAI 2017 演講實錄｜漆遠：金融智慧的發展與應用

7 月 22 - 23 日，在中國科學技術協會、中國科學院的指導下，由中國人工智慧學會、阿裡巴巴集團 & 螞蟻金服主辦， CSDN、中國科學院自動化研究所承辦的 2017 中國人工智慧大會（CCAI 2017）在杭州國際會議中心盛大召開。

螞蟻金服副總裁兼首席資料科學家漆遠

在本次大會上，螞蟻金服副總裁兼首席資料科學家漆遠博士發表了主題為《金融智慧的發展與應用》的演講。漆遠表示，螞蟻金服今年的兩個關鍵字，一個是“開放”，一個是“AI”。

在此次演講中，漆遠從風控系統、智慧助理、定損寶等產品案例出發，全面介紹了螞蟻金服產品背後的 AI 技術。

現場，螞蟻金服的“模型服務平臺”首次公開亮相，主打“模型所見即所得”。漆遠表示，資料是資產，模型本身也是資產。未來，螞蟻金服也會將這個平臺作為其中一個AI能力向合作夥伴和客戶開放。

以下為漆遠博士演講實錄，已經螞蟻金服與本人確認：

今天很高興給大家作一個分享，介紹一下AI在螞蟻金服的發展和應用。

首先我會講一講為什麼我們要做AI，為什麼呢？因為AI離不開場景和資料，為什麼要場景，因為我們要解決真正的問題，產生真正有意義的服務。在金融裡面我們有大量的服務，從支付、保險、財富、到風控、微貸等各個領域，其中典型的場景就例如要判斷某個小企業是否具備相應的信用能夠承受貸款的風險。在所有的場景裡面產生了海量的資料，而這些資料成為了人工智慧的燃料，使得我們可以發展和應用一系列的人工智慧技術。而這些場景、問題本身又為人工智慧帶來了挑戰，比如說時間敏感要求一筆交易需要毫秒級完成判斷。再如海量資料，

一天幾億筆的資料，這就需要非常大規模的穩定的風控的系統。還有業務多樣性，比如說怎麼用遷移學習來發現不同任務之間的共性。再比如說系統性風險，系統可以用一個網路來表達，那你怎樣從網路的角度分析問題。還有強資料安全和使用者隱私保護也是金融業務本身的屬性。

面對這些挑戰我們構建了一個金融智慧的平臺，從底層的圖像理解，以及使用阿裡巴巴集團的語音辨識能力，在此之上發展了NLP的能力，然後這上面進行機器學習、深度學習，分析時間序列，比如說預測餘額寶的利率變化；在最頂層，我們發展推理和決策的能力，使我們能夠幫助我們的用戶和金融合作夥伴做出明智的決策。

在這個金融智慧平臺中包括了一系列的人工智慧技術，

比如說強化學習、無監督學習、圖推理、共用學習。這些技術具備金融領域的即時對抗性、大規模以及安全加密性。

今天講幾個例子，從例子出發講講背後的技術。在這之前，我先講講螞蟻金服現在的兩個關鍵字。螞蟻金服我們定位為Techfin，而科技公司的一個核心的是什麼？是AI。所以今年螞蟻金服兩個關鍵字，一個是“開放”，一個是“AI”，我們希望通過AI驅動所有的業務，同時作為科技公司，我們技術成熟一個開放一個，所以下面探討的技術也是探討如何開放給夥伴。

首先是在安全風控中，裡面有使用者、設備、商家，他們之間通過資金流動形成互聯。傳統的風控技術中我們建立了很多的規則和模型。

螞蟻金服過去十年通過使用大量的機器學習建立強大的風控系統。但是今天我們希望進一步地升級風控系統。比如說可信模型，我們想判斷有一筆交易是否存在帳號被盜。而這裡面我們使用了一個跨界的技術，其實就廣告CTR預估的技術。在2014年Facebook廣告演算法的文章中，講的是GBDT+邏輯回歸。使用我們開發的參數伺服器技術，我們把邏輯回歸換成了大規模深度學習，使用到風控裡面：通過GBDT產生特徵，然後DNN繼續學習。因為在風控裡面很多特徵我們無法判斷哪些有用哪些沒有用，我們用GBDT產生海量特徵然後把這些特徵feed給深度學習模型。

前面是說我們把GBDT和DNN結合起來考慮風控。深度學習往下走，我們也考慮關係，用戶、商家、賣家等的關係，下面我舉一個例子，我們通過embedding技術，把整個關係結合起來，形成圖形網路，然後進行監督學習、加強學習。給大家看看例子，比如說支付寶帳號的帳戶（行為），我們一個網路有好人、壞人，有設備比如說手機、電腦，iPad等，我判斷今天這個人是否註冊一個垃圾帳號特別簡單。我們可以把整個的圖關係通過一個embedding的技術產生一個深度學習的網路，通過機器學習產生一個隱層表達，這個表達不光涵蓋了每個節點自身複雜的特徵，同時還對網路結構做了一個encoding。在垃圾帳號的識別上，在經典的Recall-Precision曲線中，Precision越高越好，接近1就是完美。原來的規則是不具可採信的，現在我們對圖使用embedding技術後有一個質的飛躍，Recall在70%、80%的時候，Precision達到90%，而原來的演算法Precision在40%幾，這基本相當於瞎猜。這個和以前的系統相比，Node2Vec也是非常先進了，我們在此基礎上又做出了明顯的提升。

將圖的關係和Feature結合起來，可以產生非常Power的模型，用在我們的模型裡面。通過廣告的演算法提升了系統，我們進一步學習，將深度學習和圖模型結合起來，可以融合網路關係與複雜特徵。

下面講講另外一個方向，在過去的很多年，不管是中國還是美國，講起智慧助理和機器人都是非常熱的話題。這裡對話很關鍵，在螞蟻金服初始的對話從客服機器人開始，如果你使用支付寶，打開客服小螞答可以問各種各樣的問題，例如你問餘額寶收益怎麼算，他就給你一個這樣一個答覆，提供工具輸入金額並計算。然後還有財富的理財管道，你問某個企業業績怎樣就會開始進行輿情分析，輿情分析在金融裡面非常多的應用，我們可以自動分析，海量的輿情在中國國內，為月新聞、周新聞相應地打出輿情分。

下面講兩個技術，在對話機器人裡面，在客服裡面，假如問了這句話我怎樣申請退錢回來，它是沒有場景的。在問答系統中要理解它，就要真正知道在問什麼，我們可以根據使用者的近期操作，這些操作本身就提供了一個背景和場景。我們通過LSTM對使用者行為軌跡做一個編碼，然後整個模型是一個深度排序模型，比較哪個更相似，通過LSTM建立模型，把怎樣申請退錢回來的用戶問題，和轉帳轉錯怎麼辦和為什麼銀行卡轉帳被退回來，這兩個進行答案匹配。我們給出正確的選擇轉帳到帳戶錯了怎麼辦。這裡有一系列的創新。這些創新今天不一一講。最後的結果，去年雙十一智能客服自助率做到97%。同時今年我們問題解決率超過了人工客服，機器人回答問題比人回答更為滿意。

這裡對輿情分析背後技術簡單介紹，首先一個特別簡單的模型，就是統計這些感情單元，同時又和深度學習的方法結合，最後產生整體的判斷，這裡面的話使用CNN，k-max pooling可以結合起來，還有TNN，將所有的資訊結合起來進行一個綜合的評價。

剛才兩個例子講到對話機器人，第一個是客服，第二個是財富號的輿情分析。再就是保險，同時支付寶本身也在進行升級，您對支付寶可以說話，比如說我要給我的同事通過語音進行轉帳，自動完成轉帳並記錄到帳單裡面。

下面第三個講機器學習平臺，這是我們團隊在阿裡第一年開始做的工作，後來在螞蟻繼續和阿裡集團合作開發。現在它是阿裡和螞蟻金服使用最廣泛的大規模機器學習平臺。2015年我們用於廣告取得非常好的效果，後來用於淘寶推薦，前年用到雙11推薦，今年又用到了螞蟻的風控裡面，其實它的核心技術就是我們能夠通過系統和演算法的結合，處理海量資料。所以在風控系統裡面，我們可以在同樣安全覆蓋的情況下，提升召回率，每天一千多萬筆可以準確輕鬆地通過審查。這個平臺前年做到了，但是今年才寫文章出來。它能支援100億特徵、千億樣本、萬億參數。這是說它可以支援非常多的資料和特徵，我們能從資料中提取價值做出預測。

假設非常多的資料，萬億參數非常耗能耗的，同時需要很多的機器。很多時間的applications,我們希望速度比較快比較省能源。在非常非常經典的矩陣分解中，相信很多做相關研究和做開發的同學都非常瞭解，如果我們把矩陣分解和雜湊演算法做結合，我們可以處理非常大的矩陣，比如說1億×1千萬的矩陣分解，我們2小時收斂，從工業界的角度具有非常大的價值。我們用到了口碑的場景中，點擊率的升幅超過120%。

剛才介紹的是機器學習，就是參數伺服器，支持深度學習。下面再講一個技術，我們的場景是行銷，比如說各種各樣的商家行銷，怎樣發，發給誰，這是非常有價值的商業問題。這裡面我們開發了加強學習技術。在這個演算法中，我們有State、Action和Reward的狀態，我們定義了一個空間，State是從多個業務抽取特徵，刻畫使用者狀態，Action是對哪些卡片和管道做了相關決策組合，Reward就是使用者的點擊和簽約行為。整個框架是流式強化學習框架，所以能夠即時實現Update。這上面講了一個流程，比如說花唄准入，比如說它是否點入和簽約，整個演算法可以在框架上反覆運算，效果就是在深度學習基礎上有更好的效果提升，比如推薦卡片點擊率171%的增長和最終簽約率149%的增長。

剛才講了加強學習，講了深度學習，下面講另外一個例子。如果每個技術都作為一個好用的工具開放出來，您只想用這個工具而不太深入技術本身怎麼辦？我們開發了一個模型服務平臺，將整個模型訓練給您視覺化，您通過簡單的點擊、拖拽資料就能產生所有的結果。比如說您是開發應用的，您可以把演算法在裡面應用以後進行一鍵部署。當然如果您是開發演算法的也可以寫出新的演算法，例如加強學習等，可以通過統一的平臺進行服務。在螞蟻金服內部，從芝麻信用到網商銀行的借貸，到風控都正在全面地使用我們的平臺。

我們今天講到了開放與AI，這裡講到螞蟻金融雲和開放平臺，希望我們的AI技術的能力開放服務于我們的客戶和合作夥伴。

這個模型服務平臺簡單來說我們就是模型所見即所得，不光資料是資產，模型本身也是資產。做到視覺化的，對於用戶來講，提供給開發人員非常方便的建模方式，非常容易使用，不需要知道某一行公式怎樣推導的，然後可以支援A/B測試，可以全流程地效果監控，同時跨團隊地合作，並且可以實現多人同時開發。

接下來簡單展示訓練模型時的一個視頻。這是顯示的分類結果，這是得出來的樹狀模型，然後可以進行效果評估，這裡可以比較兩個演算法哪一個更好，拆分以後隨便選兩個演算法自動評估，然後可以進行結果對比。我們以前在學校訓練完模型，然後手工測試幾個測試集就結束了，而在實際業界應用裡一直有新的資料跑，新的預測，必須簡潔好用。在我們說話的時候，這就產生了一個部署的API，大家如果有問題還可以看一個請求示例，示範如何使用這個API。部署完了以後我們要知道效果好不好，是不是一直穩定，比如我們要監控信用分，KS值，它是AUC的變種。我們可以看到它對每一天當時的效果即時進行監控。

剛才講了整體的從模型訓練到資料特徵的產生，您可以從各種模組，到訓練到部署產生API，到最後效果的監控，全流程地展示。

那下面最後講一個例子，前幾周我們保險事業部和我們發佈了一個產品叫“定損寶”，做什麼呢？出了一個小車禍，照張像，哪裡有問題，是撞了一個洞還是刮蹭進行判斷，這是非常複雜的事。我們不是做 OCR識別，也不是做數字識別，但是我們要做檢測，我們要檢測哪個部件比如說車門、車燈還是bumper，我們要理解這個場景，比如說有一個縫，本身電腦不知道是車上的縫還是牆上的縫，還必須知道這個問題多麼嚴重，最後是一個決策，將多個資料來源結合起來，給用戶和定損員一個輔助判斷。看這張圖像，您覺得車哪裡有問題，我當時看了很久也沒看出來，不知道大家怎樣？這裡面有什麼問題呢？如這裡所示，有個特別微小的變形。但是這裡我們要解決幾個問題，第一個是問題在哪裡，第二個你要把問題分幾層，到底有多嚴重的問題，比如說這是輕度變形。有的變形了你得把整個部件換掉，有的稍微一修就修好了，最後告訴您修多少錢，在您的App裡面把北京你所在位置附近的維修店全部選出來告訴您成本，您做一個決策是否要修。下面舉幾個我們遇到的電腦視覺上的挑戰。比如部件識別，這裡面有多少個部件呢？我不是很專業，不算汽車愛好者，但是可以看出來這裡有很多很多部件。所有的部件要找到，並且說有問題你都要看出來。再舉個例子，左邊一個強反光，強反光是不是有問題呢？我們要琢磨琢磨。還有，照相的時候人臉都對著框子裡照，拍車照片的角度變化大很多。

這個項目的開始和拿到初步的結果是演算法團隊和業務同學通力合作的結果。演算法同學積極學習業務，從開始看不出來圖像裡車的問題，到現在都快成了專業的圖像定損員了。我們的技術有一系列的流程，從噪音去除到類別識別到目標檢測和程度判斷，到底多嚴重，是變形還是刮蹭。根據很多張圖片，最後我們要做預測結果的綜合，綜合以後我們做資料決策輔助，這要打通車的原件資料庫來分析，假如這個部件壞了多少錢。全國有4500萬案件/年， 60%的案件都是純外觀損傷的，它覆蓋了非常大的比例。每個成本平均150塊錢，可以減少50%的作業量。

今天我介紹了一系列的技術，以前我當老師寫NSF proposals，都有兩個目標要寫，一個是intellectualmerits 就是技術的原創性，另外一個是broad impact，就是對世界的影響。一般第一個目標我們都拼命寫，第二段都是那種來回貼的那種，為什麼？因為當時在學校的研究裡工業界有距離，缺乏直接的對世界產生影響的辦法。今天我覺得學校可以和工業界合作，工業界有更多的資料，更大的問題更難的挑戰，不僅應用技術還可以發展技術，今天介紹的只是一部分的技術，我們還有沒有發佈的技術。

總結一下，今天講了深度學習和圖的結合，它主要是系統性風險的監測與預測；智慧助理，我們達到了超越人滿意度的智慧客服。今天智慧助理完成任務基於一系列的場景，因為支付寶我們是一系列的金融生活服務平臺，今天就加上智慧的定語叫智慧的一系列的金融生活服務平臺；今天也介紹了基於雜湊的海量特徵提取，完全是從工業的角度，希望算得快、便宜和省記憶體；另外是深度強化學習，在行銷與推薦應用。在行銷比較關鍵，如果只是深度學習那麼總是給你想要的，但是加強學習您可以探索一個在exploitation 和exploration的平衡：給你以前推薦你看過的類似的，也可以給你沒有看到的。

下面說些我們和其他公司可能都面臨的挑戰，我們雖然有很多的資料，但是比起我們的業務問題複雜度還是不夠，小資料、弱標注的資料的學習就很重要。另外，比如說怎樣處理有噪音與不確定性的推理，專家系統是從邏輯推出來的，但是它不能handle真實世界裡的噪音和異常情況，今天講的Graph Emedding是一條路，但不是僅這一條還有其他的方向。然後機器學習裡面還有一個很重要的問題是模型的可解釋性，你要知道為什麼，那在金融場景有非常多的應用，為什麼信用分變低了你要給一個交代，就是解釋，今天的深度學習缺乏解釋性。還有如何從觀測的而不是隨機對比的資料中分析因果分析。還有長期目標與短期目標映射，怎樣把長期的目標和短期做的目標結合起來。最後，非線性動態網路系統，網路本身在改變這裡和物理學一些概念很相關，同時和圖理論非常相關，這對風險、監控和交易都會很有用。

最後，再次說，螞蟻是一家做普惠金融的科技公司。我們主題的是開放與AI，技術成熟一個開放一個。從客服到模型部署平臺到其他的每一個案例，包括輿情平臺，我們都非常願意賦能和服務客戶，和我們的合作夥伴、與我們的客戶共同探討和創造未來。

謝謝大家！

CAAI原創丨作者漆遠

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智慧學會

用戶、商家、賣家等的關係，下面我舉一個例子，我們通過embedding技術，把整個關係結合起來，形成圖形網路，然後進行監督學習、加強學習。給大家看看例子，比如說支付寶帳號的帳戶（行為），我們一個網路有好人、壞人，有設備比如說手機、電腦，iPad等，我判斷今天這個人是否註冊一個垃圾帳號特別簡單。我們可以把整個的圖關係通過一個embedding的技術產生一個深度學習的網路，通過機器學習產生一個隱層表達，這個表達不光涵蓋了每個節點自身複雜的特徵，同時還對網路結構做了一個encoding。在垃圾帳號的識別上，在經典的Recall-Precision曲線中，Precision越高越好，接近1就是完美。原來的規則是不具可採信的，現在我們對圖使用embedding技術後有一個質的飛躍，Recall在70%、80%的時候，Precision達到90%，而原來的演算法Precision在40%幾，這基本相當於瞎猜。這個和以前的系統相比，Node2Vec也是非常先進了，我們在此基礎上又做出了明顯的提升。