微軟亞洲研究院副院長周明：自然語言處理發展迅速，應用更加廣泛

微軟亞洲研究院副院長、國際計算語言學協會（ACL）候任主席、中國電腦學會理事、中文資訊技術專委會主任、術語工作委員會主任、中國中文資訊學會常務理事，哈爾濱工業大學、天津大學、南開大學、山東大學等多所學校博士導師，兼任如此多職位的證實周明，他在EmTech China全球新興科技峰會上分享了自然語言的進展，以下是演講整理全文：

人工智慧最重要的分支就是自然語言的理解與處理，即語言智慧，通過對詞、句子、篇章進行分析，對內容裡面的人物、時間、地點等進行理解，然後在此基礎上，去支持一系列核心技術，

比如跨語言的翻譯、問答系統、閱讀理解、知識圖譜等技術，基於這些技術，又可以把它應用到其它應用領域，比如說搜尋引擎、客服、金融、新聞等等領域。

總之，就是通過對語言的理解，實現人跟電腦的直接交流，從而實現人跟人更加有效的交流。自然語言技術不是一個獨立的技術，其受雲計算、大資料、機器學習、知識圖譜等等各個方面的支撐。

圖 | 周明在演講

接下來將從四個方面介紹自然語言的進展，即神經機器翻譯、聊天機器人、閱讀理解及機器創作。

神經機器翻譯就是模擬人腦的翻譯過程，

人在翻譯的時候，首先是理解這句話，然後在腦海裡形成對這句話的語義表示，最後再把這個語義表示轉化到另一種語言。

神經機器翻譯有兩個模組，一個是編碼模組，把輸入的來源語言變成一個中間的語義表示，用一系列的機器的內部狀態來代表，另一個模組是解碼模組，根據語義分析的結果，逐詞生成目的語言。

神經機器翻譯在這幾年發展非常迅速， 2017 年的研究熱度更是一發不可收拾，現在神經機器翻譯已經取代了統計機器翻譯，成為機器翻譯的主流技術。

目前有統計資料表明，在一些傳統的統計機器翻譯難以完成的任務上，神經機器翻譯的性能遠遠超過了統計機器翻譯，而且跟人的標準答案非常接近，

甚至說是相仿的水準。圍繞著神經機器翻譯，研究者們已做了很多的工作，比如如何提升訓練的效率，如何提升編碼和解碼的能力。

還有一個重要的研究問題就是資料問題，神經機器翻譯依賴於雙語對照的大規模的資料集來訓練，端到端地訓練神經網路參數，這涉及很多語音段和很多的垂直領域，但我們實際上並沒有那麼多的資料，我們只有小量的雙語資料和大量的單語資料。

所以，我們就提出了半監督的聯合垂直模型，就是已知一個雙語推導語料，分別對之訓練，從而達到中英翻譯系統與英中翻譯系統的相互促進，比如拿中英翻譯系統去翻中文的語料，形成很多偽的中英對照語料，然後把這個語料去加到英中翻譯裡面去。

同樣，用英中翻譯系統去翻譯大量的英文語料，然後把這個語料加到中英翻譯裡面，這樣經過多次反覆運算之後，翻譯水準大幅度提升。

微軟現在已經全面採用神經機器翻譯，最近還跟華為的 Mate10 手機合作，得到了神經機器翻譯類似於在雲上的效果。

第二個話題是聊天機器人。聊天機器人就是人和機器對聊，在聊天的時候機器要理解人的意圖，產生比較符合人的想法，以及符合當前上下文的回復，再根據人與機器各自的回復將話題進行下去。微軟小冰就是這樣的一個聊天機器人。基於當前的輸入資訊，再加上對話的情感，以及使用者的畫像，經過一個類似於神經機器翻譯的解碼模型生成回復，可以達到上下文相關、領域相關、話題有關，而且是針對用戶特點的個性化的回復。

這樣的技術已經應用到微軟的很多產品裡，比如會 5 種語言、擁有 1 億以上用戶的微軟小冰、可以進行自然人機交互的 Cortana、可以在敦煌回答遊客問題的敦煌小冰。

下一個話題是閱讀理解，閱讀理解就是讓電腦看一遍文章，針對這些文章問一些問題，看電腦能不能回答出來。斯坦福大學曾做過一個比較有名的實驗，就是使用維琪百科的文章提出 5 個問題，由人把答案做出來，然後把資料分成訓練集和測試集，訓練集是公開的，用來訓練閱讀理解系統，而測試集不公開，個人把訓練結果上傳給斯坦福，斯坦福在其雲端運行，再把結果報在網站上，這也避免了一些人對測試集做手腳。

閱讀理解技術，自 2016 年 9 月前後發佈，就引起了很多研究單位的關注，大概有二三十家單位都在做這樣的研究，一開始的水準都不是很高，以 100 分為例，人的水準是 82.3 左右，機器的水準只有 74 分，相差甚遠，後來通過類似於開源社區模式的不斷改進，它的性能就得以逐步地提高了。

最近在閱讀理解領域出現的一個備受關注的問題，就是如何才能做到超越人的標注水準。現在微軟、阿裡巴巴、科大訊飛和哈工大的系統，都超越了人工的標注水準，這標誌著閱讀理解技術進入了一個新的階段。這幾個系統都來自中國，也體現中國在自然語言處理的進步。

一個閱讀理解的框架首先要得到每個詞的語義表示，再得到每個句子的語義表示，這可以用迴圈神經網路 RNN 來實現，然後用特定路徑來找出潛在答案，基於這個答案再篩選出最優的答案，最後確定這個答案的邊界。

在做閱讀理解的時候，是用到了外部的知識，可以用大規模的語料來訓練外部的知識，通過外部知識訓練的 RNN 模型，加入到原來端到端的訓練結果中，以此來大幅度地提高閱讀理解的能力。

最後介紹機器創作，機器可以做很多理性的東西，那麼它可以做一些創造性的東西嗎？10 年以前，我們就開始做微軟對聯，在此基礎上，創作絕句、律詩、唐詩宋詞等等，現在進行寫歌譜曲。在微軟對聯裡，使用者輸入上聯，系統就可以對出下聯，也可以給出橫批；在字謎遊戲裡，用戶給出謎面，讓系統猜出字；或系統給出謎面讓使用者猜出字。

我們的編碼解碼技術已經成功用於神經網路機器翻譯、小冰機器人和詞曲創作中。中央電視臺《機智過人》節目就曾播過我們的小冰與人類選手進行詞曲創作比拼的環節，結果是小冰險勝人類。這件事說明如果有大資料，那麼機器學習或者深度學習就可以模擬人類的創造智慧，創造出一些作品來，也可以與專家合作，幫助專家產生更好的想法，然後兩者配合，產生出美妙的音樂。

這個在以前是難以想像的，做自然語言的人從來沒有想到自然語言還可以延伸到音樂上去，其實音樂也是一種語言，自然語言的所有技術就可以應用到音樂上去，這需要大家的想像力。

今天我快速介紹了自然語言處理在神經機器翻譯、閱讀理解、聊天機器人以及機器創作領域的進展。隨著未來大資料、雲計算和深度學習的發展，模型還會進一步地提升，再加上合適的場景，技術就可以落地，就可以服務於成千上萬的使用者。可以預料，隨著自然語言處理技術的提高與普及，它將會與其他的人工智慧技術一起提升人類的生活水準。