霍金亮相GMIC掀人工智慧熱潮，網易有道神經網路翻譯上線

今天，一年一度的GMIC（全球移動互聯網大會）進入第二天議程，本屆大會不僅關注人工智慧、商業航太、無人車等前沿領域，同時也對諸如環境、醫療健康、娛樂、移動支付、教育等與生活息息相關的話題展開討論。

而在今天，最受關注的議題無疑與AI相關。畢竟昨天“人類的偉大導師”、著名科學家霍金還以視頻的方式進行了現場演講。

在演講中，霍金提出要謹慎使用人工智慧，否則，人類有可能被取代。

不過這也只是一種可能性的推測，並且要求人工智慧高度發達，或許也是很久以後的事了。

但就目前來看，人工智慧給人類帶來的更多還是便利。

比如今天網易有道首席科學家段亦濤也談及了人工智慧，不過他講的是人工智慧在翻譯領域的應用——神經網路翻譯的研究。

並表示該技術將應用在有道詞典、有道翻譯官、有道翻譯網頁版等產品上，將給超過7億的有道用戶實實在在的便利——翻譯品質的大幅提升，語言或許不再是一種障礙。

段亦濤說，神經網路翻譯是人工智慧在翻譯領域的具體應用，是目前最前沿的機器翻譯技術，它帶來的翻譯品質提升是過去十年的總和。

網易自主研發的人工智慧“NMT”究竟有多“聰明”？

網易有道今天在GMIC上公佈：由網易公司自主研發的神經網路翻譯（ Neural Machine Translation,以下簡稱NMT）技術正式上線。

作為受到丁磊親自“過問”、網易最重要技術創新之一，有道NMT技術是由網易有道與網易杭州研究院歷時兩年合力研發，將服務於有道詞典、有道翻譯官、有道翻譯網頁版、有道e讀等產品。

據介紹，這套NMT技術的核心是關於AI的深度學習。而深度學習正是推動當前人工智慧熱潮最關鍵的技術，它首先在圖像、音訊等感知領域獲得了巨大成功，目前在語言方面的應用也獲得了長足的進展。

作為目前機器翻譯領域最前沿的技術，神經網路翻譯採用獨到的神經網路結構，能夠對翻譯的全過程整體建模；與統計翻譯模型（SMT）相比，神經網路翻譯模型更像一個有機體。

NMT能夠對整個句子進行編碼，能夠更充分地利用上下文資訊，判定多義詞的詞義，生成更高品質的譯文。

最直觀的一點就是， NMT譯文的句子結構完整，語序更接近人類語言使用習慣，翻譯結果更加通順；而SMT則像由多個元件構成的機器，

每個元件完成各自的目標，但“拼接”出來的翻譯結果，常常差強人意。

如果從具體的例子來看，此次在有道上線的NMT的翻譯結果更準確，斷句和語法比起傳統機器翻譯（SMT）有了直觀可感知的提升，更接近人們心中“會說話”的人工智慧。

神經網路翻譯品質提升是過去十年總和

根據網易有道首席科學家段亦濤的介紹，有道其實很早就開始做機器翻譯。

“我們在2008年就推出了機器翻譯的服務，應該是國內最早推出這一服務的互聯網公司。這兩年我們更關注把深度學習接入機器翻譯領域，我們研究成果是非常顯著的，我們的機器翻譯品質有非常大的提升。”

段亦濤在現場為觀眾們演示了兩個有關NMT翻譯的例子。

第一個例子是英譯中的，有道隨意從外媒選取了一段新聞報導，報導內容是關於前段時間巴黎恐怖事件。

有道用各個翻譯引擎進行了翻譯，第一個是統計翻譯模型，第二個是有道的神經網路翻譯模型，第三種是某海外的神經網路翻譯引擎。

從上面的結果可以看出來，統計翻譯模型的結果拼湊感非常明顯，而且有些片斷翻譯還搞錯了，整體來看很不通順；有道的翻譯結果，可以看到是相當的準確和流暢的；第三個國外神經網路翻譯模型的結果，可以看到不少的不準確的地方。

另一個例子是中譯英的，有道摘取了機器之心前段時間發佈的一條消息，觀察各家神經網路翻譯的結果。

可以看到，有道上線的神經網路翻譯的結果，仍然是通順和準確的，這裡面幾乎沒有任何語法錯誤。

這個結果，即使是普通人中等英文水準，都很難達到，但是有道的神經網路翻譯做到了。再來看另個國外神經網路模型的翻譯結果，其實還是看出有明顯的不合適的地方，比如“起起伏伏”以及一些詞之間的關係搞錯。

面對這些例子是否精心挑選出來的質疑，段亦濤表示以上兩個例子是隨機選出的，沒有特別的篩選。

有道對品質的評測非常嚴格和客觀，採用龐大的評測資料集，並在這個資料集上看整體的品質。

段亦濤還表示，有道過去兩年研究神經網路翻譯所帶來的品質提升差不多是過年十年品質提升的總和，同時這個技術很快會被有道旗下的超過7億的用戶便捷地享受到。

未來AI翻譯的目的是要改變人與人之間的交流障礙

作為一個前沿技術，神經網路模型是如何在機器翻譯領域起到如此大的作用呢？

根據網易有道首席科學家段亦濤的介紹，原來神經網路模型模仿了人腦的工作機制，整個模型由大量的“神經元”來構成，一個“神經元”完成一些簡單的任務，然後通過對這些“神經元”的組合來協調工作，最終得到更加出色的效果。

以往的統計翻譯模型更像一個機械系統，它由很多個元件來構成，包括短語組件、分片語件、條序元件還有原模型等等。每個模組都是有各自的功能和各自的目標，然後機械地拼裝在一起，完成一個翻譯的結果。

與這個“笨拙”的機械系統相比，神經網路翻譯模型更像一個有機體，模型裡面有很多參數，這些參數都是為同一個目標來調整和優化的；它們中間的結合和交互更加有機，所以整體效率更高，效果更好。

還有一個不同是，兩種模型的內部資訊的表達方式也不一樣。

在統計翻譯模型裡，其表達方式能夠識別詞，但卻不能夠表達詞與詞之間的關係，而神經網路翻譯模型能夠使用一個十數位的向量來表達每個詞，它的表達能力更豐富、更靈活，以及能夠更好地來表達詞和詞之間的關係。

這種表達方式能夠顧及到更多這樣的關係，它的內部表達是一個有機整體，從而生成更通順的翻譯結果。

那麼，有道又為何要投入這麼巨大的人力物力財力，研究神經網路機器翻譯呢？

段亦濤表示，最直接和現實的價值就是，神經網路翻譯能夠説明人打破語言的障礙。縱觀歷史，資訊交流的變革都是對人類技術進步有很強的刺激作用。

有道翻譯官拍照翻譯中的應用

雖然目前來看，資訊技術的發展使得資料傳輸不再是瓶頸，但是另一個面臨的問題就是語言的障礙，比如同樣的資料能不能看懂和理解就是大問題。或許未來改變這一“交流困境”的，就是神經網路翻譯。

也正因為如此，有道以及網易公司將以神經網路翻譯技術為契機，進一步探索人工智慧與機器翻譯相結合的技術創新與發展。

有道在機器翻譯領域深耕了近十年，積累了大量的優質的語料和技術。依託有道詞典積累的語料和使用者資料，有道的團隊和網易杭州研究院一起，攻克了資料處理、大規模框架、模型優化、領域適配等技術難題，開發了特有的技術，目前已經在新聞、學習、口語和一些科技領域等場景下做到了最優。

技術的進步一日千里，或許就像霍金所說，在未來的短短幾十年之內，AI很可能會超越人類智力範圍，進而挑戰人類。

所以到時候，機智的你又將如何適從呢？