GMIS 2017大會俞凱演講：邁向智慧認知型對話交互

全球機器智慧峰會（GMIS 2017），是全球人工智慧產業資訊服務平臺機器之心舉辦的首屆大會，邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個 Session、32 場演講、4 場圓桌論壇、1 場人機大戰，兼顧學界與產業、科技巨頭與創業公司，以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智慧盛宴。

5 月 28 日，機器之心主辦的為期兩天的全球機器智慧峰會（GMIS 2017）進入第二天，全天議程中最受關注的是多位重要嘉賓出席的領袖峰會，包括《人工智慧：一種現代方法》的作者 Stuart Russell、第四范式聯合創始人兼首席科學家楊強、科大訊飛執行總裁兼消費者事業群總裁胡郁、阿爾伯塔大學教授及電腦圍棋頂級專家Martin Müller、Element AI 聯合創始人 Jean-Sebastien Cournoyer 等。

上午，上海交通大學教授、思必馳聯合創始人、首席科學家俞凱教授發表了主題為《邁向智慧認知型對話交互》的演講，他探討分享了目前語音領域的機遇和挑戰，以及如何邁向智慧認知型對話交互，以下是該演講的主要內容：

近期Gartner發了一個報告， 2017年全世界物聯網設備的數量首次超過了人類的數量，達到了80多億，全世界人類數量大概是75億，預計2020年整個的數量會到204億。這些新興的物聯網設備中最重要的特點是小屏、無屏，而且是大量，這種情況下想要進行複雜的資訊交互，傳統的手段就變得非常有限，而語音和語言就變成最主要的手段之一，這也就是為什麼近年來口語對話交互得到非常重大的發展，智慧對話助理的蓬勃發展也驗證了這一點。

俞凱的演講從這件當下非常熱的事情入手，具體講述目前對話交互領域已經解決的問題有哪些，

尚未解決的難點是什麼，以及背後的理論是怎樣的。

俞凱認為，對話交互，無論是研究還是工程都是要解決一個問題，就是「端到端的非配合的自然口語交互系統」，這當中與之前相比更值得關注的是「非配合」，俞凱談到，這三個字實際上是所有難點的源頭。

在整個系統的架構裡邊，要解決的無非就是兩大類問題，一類是感知，一類是認知。感知是以識別為代表的，認知則是以決策，包括知識處理為代表的。

最先講到的是感知的語音辨識。從精度的角度來看，去年微軟發佈了一個重要突破，在著名的對電話語音辨識的任務上，首次機器的系統達到了人的水準，達到了5.9，基本上逼近了人類的水準。而俞凱團隊在上海交通大學做到的另外一個突破是在抗噪語音辨識上。在國際通用的測試集上， 2015年、2016年在單系統上已經到了7.1。這個抗噪識別是比較低的。所以精度上，如果不考慮任何其他的條件，錄好的東西，切好了，讓機器去算，其水準其實已經快接近人類了。

從速度方面來看，如果這些系統不考慮是不是即時系統，即1秒鐘的語音可以花超過5倍、10倍的時候計算它，但真正做語音辨識的時候不得不考慮即時的問題。

兩三年前，業界提出了一種新的模型，叫做CTC。這種模型很重要的一個特點是，它會出現所謂的後驗處理的尖峰。俞凱教授表示，「這種尖峰給了一個啟示，在實際搜索中，右邊這個圖上面大家能看到，上面紅色的部分是以瑪律可夫鏈模型的結果，下面的是CTC的結果。最大的不同就是在大的識別點上面其實我們完全可以把這些體系徹底的拋棄。」

之前的語音辨識辦法都是逐幀的進行搜索，現在能在監控上進行搜索，和以前的結果相比，這種辦法大概把語音辨識的速度提升了3—4倍，所以在語音辨識的速度上得到了很大的提升。

語音辨識取得了巨大的進展，然而目前仍然存在著非常多的問題。目前最難解決的問題是「非配合」。

在哪些方面的「非配合」呢？第一類是信號，即時的語音辨識的轉寫系統，都有一個條件，需要環境是來進行配合。俞凱舉例說到，比如講話時麥克風放在講話者的嘴邊，但是如果去進行遠場的識別、去進行較大噪音情況下的語音辨識，這時聲音定位遠場處理就變得非常重要。另外，語音辨識過程中會涉及到語言範圍，假如在預先知道別人想要說什麼，在這種配合式的狀態之下，語言模型會非常好，語音辨識的效果也非常好。通用的語音辨識，轉寫效果可能非常好，但遇到很專業的東西時轉寫效果可能就會不佳。

俞凱認為，「對話交互的最大難點在於認知，認知最大的問題是，到底這個問題是什麼，我們並不確切的知道。」認知智慧很難找到確切的方向，拿口語交互為例子。從對話分解的角度上來說，按照說話交互的倫次以及結構化語義引入的程度來分別，大概有四種，命令式的、線條式的、問答式的、任務式的。

線條式的，基本上一問一答，不太在乎背後的結構的語義是什麼，只要求看起來像是人說的就可以。任務式，主要解決具體的推介問題，比如任務型的東西需要尋找一個導航的結果、需要買一個咖啡，是任務型，必須解決多輪交互上的問題，需要把知識嵌入進去。所以幾種方式目前解決方案是不一樣的，目前還沒有完全的框架來解決它。認知過程中不單包括了靜態的理解，還包括了動態的交互控制，它要解決的事情就是決策的過程。

現在大資料和深度學習能否把遇到的問題都解決掉？首先，在自然語言處理界，在做認知的過程當中，最廣泛應用的一種就是深度序列學習，尤其是基於注意力機制的這樣的深度序列學習，這種在機器翻譯包括問答上面已經取得了非常好的效果，但是它真的是通過了理解去做問答嗎？舉一個很著名的例子，微軟研究院提出的任務SQuAD，就是閱讀理解的任務，給一段話讓機器去讀，提問一些問題，機器需要在給定的閱讀材料中找到答案。一般想到這件事情聽起來是需要人理解的，看似在最好的系統裡面已經非常接近人的指標了，幾乎跟人找到的答案是非常一致的。但這是否證明已經達到了人的水準？

俞凱解釋說，「幾乎所有最好的模型，都會把這個問題建模成另外一件事，會建模成我根本不去理解你，我是要去預測，我把所有的文字編號，我預測我要回答的這個答案開始的這個編號，比如第5個詞，以及結束的編號，比如第7個號，通過機器學習的影射，通過一系列的演算法，通過給定的問題我們預測它的答案，開始的編號和結束的編號，這個東西沒有辦法解釋的，還是黑箱的東西。」俞凱希望做到這些事情可解釋，可解釋的最大好處是能夠控制它。

此外，在俞凱看來，強化學習是未來機器可以學的更好，非常重要的發展方向。其實強化學習在人機交互中已經被認為是一個大方向，但無論是研究機構還是工業機構，沒有任何一家有全強化學習的系統，能夠直接線上上服務，而都是一些混合一點的或者主要以規則為主的。在現實當中是存在問題的，第一個問題，冷開機的問題。AlphaGo在第二個版本上面是通過佇列變得越來越好的，而對話能不能佇列，如果對話想要佇列的話，除了有回答的機器人，還有要有像使用者問題的機器人，需要造兩個機器人，難度是非常大的。所以很多強化學習訓練的離線系統，沒有辦法達到現在通過規則、通過其他的方式高度優化的線上商業系統的水準，要真上線就會影響用戶的體驗，所以冷開機是特別大的問題。

第二個問題，在現有的強化系統裡面往往都是對特定領域的，如果換一個領域怎麼辦，如果深挖一些問題怎麼辦，對於語音辨識相對好一點，對語音強化領域的策略需要解決策略進化的問題，這種進化線上上進化，又不影響用戶體驗，現在還處在摸索當中。

除 “深度學習+大資料”解決未來對話交互的問題，俞凱還認為交互的時機非常重要。他分析到，「當兩個人說話的時候，很多時候不用等你說完就知道你說什麼了，或者等你說了半句對方已經可以知道答案，就直接告訴你，我要打斷你。打斷你的時候不單單是語音辨識的問題，我切斷了你的語義，並且還要預測你的語義才能去回答。」這個過程當中什麼時間切入最為自由，什麼時間切入最為恰當，就變成了交互時機的問題。「如果之前我們所研究的主要範疇是What to answer，現在我們要研究的範疇是When to answer」俞凱說。

另外一個問題是用戶異常的處理，在交互過程當中難免會有語音辨識的錯誤、語音理解的錯誤，甚至交互策略的錯誤，這樣的事情在現有的深度學習的框架下面還沒有辦法解決。

除了“深度學習+大資料”是現在流行的東西，大資料之外還有什麼？就是小資料，這是未來研究發展和業界發展的趨勢。

第一個比較熱的方面，就是所謂的自我調整。

在這個裡面，尤其在對話交互當中，語義理解的自我調整要遠比語音辨識的自我調整來得重要，而自我調整當中對於一般被稱為Text這樣的自我調整，不如對所謂的本體自我調整，就是你想要理解的範圍它的擴充或者它的計畫這樣的自我調整來的重要，所以這方面的遷移學習是最近在學界也比較熱、在產業界也是大家都盯著的一個非常重要的點。

另外，大資料不能解決所有的問題。人類的知識是在更多的大資料的基礎之上，經過了人類這種思考和沉澱積累所得的這樣的結晶，這樣的結晶就會變成我們來進行進一步處理的，尤其是在進行非結構化小資料處理的關鍵，所以如何去開發知識與資料聯合驅動這樣的模型，這是大資料之外我們所要去面臨的挑戰，也是真正未來能夠產生下一波最大紅利的一個挑戰。

俞凱整個演講提出這樣一個觀點，就是「智慧的感知+認知的進化」，是未來人機口語對話系統發展的重要方向

所以在語音辨識的速度上得到了很大的提升。

語音辨識取得了巨大的進展，然而目前仍然存在著非常多的問題。目前最難解決的問題是「非配合」。

除了“深度學習+大資料”是現在流行的東西，大資料之外還有什麼？就是小資料，這是未來研究發展和業界發展的趨勢。

第一個比較熱的方面，就是所謂的自我調整。

俞凱整個演講提出這樣一個觀點，就是「智慧的感知+認知的進化」，是未來人機口語對話系統發展的重要方向