您的位置:首頁>科技>正文

微軟亞洲研究院副院長周明:自然語言處理發展迅速,應用更加廣泛

微軟亞洲研究院副院長、國際計算語言學協會(ACL)候任主席、中國電腦學會理事、中文資訊技術專委會主任、術語工作委員會主任、中國中文資訊學會常務理事, 哈爾濱工業大學、天津大學、南開大學、山東大學等多所學校博士導師, 兼任如此多職位的證實周明, 他在EmTech China全球新興科技峰會上分享了自然語言的進展, 以下是演講整理全文:

人工智慧最重要的分支就是自然語言的理解與處理, 即語言智慧, 通過對詞、句子、篇章進行分析, 對內容裡面的人物、時間、地點等進行理解, 然後在此基礎上, 去支持一系列核心技術,

比如跨語言的翻譯、問答系統、閱讀理解、知識圖譜等技術, 基於這些技術, 又可以把它應用到其它應用領域, 比如說搜尋引擎、客服、金融、新聞等等領域。

總之, 就是通過對語言的理解, 實現人跟電腦的直接交流, 從而實現人跟人更加有效的交流。 自然語言技術不是一個獨立的技術, 其受雲計算、大資料、機器學習、知識圖譜等等各個方面的支撐。

圖 | 周明在演講

接下來將從四個方面介紹自然語言的進展, 即神經機器翻譯、聊天機器人、閱讀理解及機器創作。

神經機器翻譯就是模擬人腦的翻譯過程,

人在翻譯的時候, 首先是理解這句話, 然後在腦海裡形成對這句話的語義表示, 最後再把這個語義表示轉化到另一種語言。

神經機器翻譯有兩個模組, 一個是編碼模組, 把輸入的來源語言變成一個中間的語義表示, 用一系列的機器的內部狀態來代表, 另一個模組是解碼模組, 根據語義分析的結果, 逐詞生成目的語言。

神經機器翻譯在這幾年發展非常迅速, 2017 年的研究熱度更是一發不可收拾, 現在神經機器翻譯已經取代了統計機器翻譯, 成為機器翻譯的主流技術。

目前有統計資料表明, 在一些傳統的統計機器翻譯難以完成的任務上, 神經機器翻譯的性能遠遠超過了統計機器翻譯, 而且跟人的標準答案非常接近,

甚至說是相仿的水準。 圍繞著神經機器翻譯, 研究者們已做了很多的工作, 比如如何提升訓練的效率, 如何提升編碼和解碼的能力。

還有一個重要的研究問題就是資料問題, 神經機器翻譯依賴於雙語對照的大規模的資料集來訓練, 端到端地訓練神經網路參數, 這涉及很多語音段和很多的垂直領域, 但我們實際上並沒有那麼多的資料, 我們只有小量的雙語資料和大量的單語資料。

所以, 我們就提出了半監督的聯合垂直模型, 就是已知一個雙語推導語料, 分別對之訓練, 從而達到中英翻譯系統與英中翻譯系統的相互促進, 比如拿中英翻譯系統去翻中文的語料, 形成很多偽的中英對照語料, 然後把這個語料去加到英中翻譯裡面去。

同樣, 用英中翻譯系統去翻譯大量的英文語料, 然後把這個語料加到中英翻譯裡面, 這樣經過多次反覆運算之後, 翻譯水準大幅度提升。

微軟現在已經全面採用神經機器翻譯, 最近還跟華為的 Mate10 手機合作, 得到了神經機器翻譯類似於在雲上的效果。

第二個話題是聊天機器人。聊天機器人就是人和機器對聊,在聊天的時候機器要理解人的意圖,產生比較符合人的想法,以及符合當前上下文的回復,再根據人與機器各自的回復將話題進行下去。微軟小冰就是這樣的一個聊天機器人。基於當前的輸入資訊,再加上對話的情感,以及使用者的畫像,經過一個類似於神經機器翻譯的解碼模型生成回復,可以達到上下文相關、領域相關、話題有關,而且是針對用戶特點的個性化的回復。

這樣的技術已經應用到微軟的很多產品裡,比如會 5 種語言、擁有 1 億以上用戶的微軟小冰、可以進行自然人機交互的 Cortana、可以在敦煌回答遊客問題的敦煌小冰。

下一個話題是閱讀理解,閱讀理解就是讓電腦看一遍文章,針對這些文章問一些問題,看電腦能不能回答出來。斯坦福大學曾做過一個比較有名的實驗,就是使用維琪百科的文章提出 5 個問題,由人把答案做出來,然後把資料分成訓練集和測試集,訓練集是公開的,用來訓練閱讀理解系統,而測試集不公開,個人把訓練結果上傳給斯坦福,斯坦福在其雲端運行,再把結果報在網站上,這也避免了一些人對測試集做手腳。

閱讀理解技術,自 2016 年 9 月前後發佈,就引起了很多研究單位的關注,大概有二三十家單位都在做這樣的研究,一開始的水準都不是很高,以 100 分為例,人的水準是 82.3 左右,機器的水準只有 74 分,相差甚遠,後來通過類似於開源社區模式的不斷改進,它的性能就得以逐步地提高了。

最近在閱讀理解領域出現的一個備受關注的問題,就是如何才能做到超越人的標注水準。現在微軟、阿裡巴巴、科大訊飛和哈工大的系統,都超越了人工的標注水準,這標誌著閱讀理解技術進入了一個新的階段。這幾個系統都來自中國,也體現中國在自然語言處理的進步。

一個閱讀理解的框架首先要得到每個詞的語義表示,再得到每個句子的語義表示,這可以用迴圈神經網路 RNN 來實現,然後用特定路徑來找出潛在答案,基於這個答案再篩選出最優的答案,最後確定這個答案的邊界。

在做閱讀理解的時候,是用到了外部的知識,可以用大規模的語料來訓練外部的知識,通過外部知識訓練的 RNN 模型,加入到原來端到端的訓練結果中,以此來大幅度地提高閱讀理解的能力。

最後介紹機器創作,機器可以做很多理性的東西,那麼它可以做一些創造性的東西嗎?10 年以前,我們就開始做微軟對聯,在此基礎上,創作絕句、律詩、唐詩宋詞等等,現在進行寫歌譜曲。在微軟對聯裡,使用者輸入上聯,系統就可以對出下聯,也可以給出橫批;在字謎遊戲裡,用戶給出謎面,讓系統猜出字;或系統給出謎面讓使用者猜出字。

我們的編碼解碼技術已經成功用於神經網路機器翻譯、小冰機器人和詞曲創作中。中央電視臺《機智過人》節目就曾播過我們的小冰與人類選手進行詞曲創作比拼的環節,結果是小冰險勝人類。這件事說明如果有大資料,那麼機器學習或者深度學習就可以模擬人類的創造智慧,創造出一些作品來,也可以與專家合作,幫助專家產生更好的想法,然後兩者配合,產生出美妙的音樂。

這個在以前是難以想像的,做自然語言的人從來沒有想到自然語言還可以延伸到音樂上去,其實音樂也是一種語言,自然語言的所有技術就可以應用到音樂上去,這需要大家的想像力。

今天我快速介紹了自然語言處理在神經機器翻譯、閱讀理解、聊天機器人以及機器創作領域的進展。隨著未來大資料、雲計算和深度學習的發展,模型還會進一步地提升,再加上合適的場景,技術就可以落地,就可以服務於成千上萬的使用者。可以預料,隨著自然語言處理技術的提高與普及,它將會與其他的人工智慧技術一起提升人類的生活水準。

第二個話題是聊天機器人。聊天機器人就是人和機器對聊,在聊天的時候機器要理解人的意圖,產生比較符合人的想法,以及符合當前上下文的回復,再根據人與機器各自的回復將話題進行下去。微軟小冰就是這樣的一個聊天機器人。基於當前的輸入資訊,再加上對話的情感,以及使用者的畫像,經過一個類似於神經機器翻譯的解碼模型生成回復,可以達到上下文相關、領域相關、話題有關,而且是針對用戶特點的個性化的回復。

這樣的技術已經應用到微軟的很多產品裡,比如會 5 種語言、擁有 1 億以上用戶的微軟小冰、可以進行自然人機交互的 Cortana、可以在敦煌回答遊客問題的敦煌小冰。

下一個話題是閱讀理解,閱讀理解就是讓電腦看一遍文章,針對這些文章問一些問題,看電腦能不能回答出來。斯坦福大學曾做過一個比較有名的實驗,就是使用維琪百科的文章提出 5 個問題,由人把答案做出來,然後把資料分成訓練集和測試集,訓練集是公開的,用來訓練閱讀理解系統,而測試集不公開,個人把訓練結果上傳給斯坦福,斯坦福在其雲端運行,再把結果報在網站上,這也避免了一些人對測試集做手腳。

閱讀理解技術,自 2016 年 9 月前後發佈,就引起了很多研究單位的關注,大概有二三十家單位都在做這樣的研究,一開始的水準都不是很高,以 100 分為例,人的水準是 82.3 左右,機器的水準只有 74 分,相差甚遠,後來通過類似於開源社區模式的不斷改進,它的性能就得以逐步地提高了。

最近在閱讀理解領域出現的一個備受關注的問題,就是如何才能做到超越人的標注水準。現在微軟、阿裡巴巴、科大訊飛和哈工大的系統,都超越了人工的標注水準,這標誌著閱讀理解技術進入了一個新的階段。這幾個系統都來自中國,也體現中國在自然語言處理的進步。

一個閱讀理解的框架首先要得到每個詞的語義表示,再得到每個句子的語義表示,這可以用迴圈神經網路 RNN 來實現,然後用特定路徑來找出潛在答案,基於這個答案再篩選出最優的答案,最後確定這個答案的邊界。

在做閱讀理解的時候,是用到了外部的知識,可以用大規模的語料來訓練外部的知識,通過外部知識訓練的 RNN 模型,加入到原來端到端的訓練結果中,以此來大幅度地提高閱讀理解的能力。

最後介紹機器創作,機器可以做很多理性的東西,那麼它可以做一些創造性的東西嗎?10 年以前,我們就開始做微軟對聯,在此基礎上,創作絕句、律詩、唐詩宋詞等等,現在進行寫歌譜曲。在微軟對聯裡,使用者輸入上聯,系統就可以對出下聯,也可以給出橫批;在字謎遊戲裡,用戶給出謎面,讓系統猜出字;或系統給出謎面讓使用者猜出字。

我們的編碼解碼技術已經成功用於神經網路機器翻譯、小冰機器人和詞曲創作中。中央電視臺《機智過人》節目就曾播過我們的小冰與人類選手進行詞曲創作比拼的環節,結果是小冰險勝人類。這件事說明如果有大資料,那麼機器學習或者深度學習就可以模擬人類的創造智慧,創造出一些作品來,也可以與專家合作,幫助專家產生更好的想法,然後兩者配合,產生出美妙的音樂。

這個在以前是難以想像的,做自然語言的人從來沒有想到自然語言還可以延伸到音樂上去,其實音樂也是一種語言,自然語言的所有技術就可以應用到音樂上去,這需要大家的想像力。

今天我快速介紹了自然語言處理在神經機器翻譯、閱讀理解、聊天機器人以及機器創作領域的進展。隨著未來大資料、雲計算和深度學習的發展,模型還會進一步地提升,再加上合適的場景,技術就可以落地,就可以服務於成千上萬的使用者。可以預料,隨著自然語言處理技術的提高與普及,它將會與其他的人工智慧技術一起提升人類的生活水準。

Next Article
喜欢就按个赞吧!!!
点击关闭提示