博鼇人工智慧翻譯烏龍後，你應該知道的機器翻譯簡史

作者：尹相志

這是秦朔朋友圈的第1934篇原創首發文章

博鼇人工智慧翻譯的“烏龍”

在今年的博鼇亞洲論壇中，除了主要議程外，

最引人注目的熱點是首次引進了人工智慧同傳技術進行會議中的即時翻譯。然而，理想很豐滿，但現實卻很骨感，人工智慧同傳並沒有出現原先大肆宣稱的“讓同傳業介面對即將失業的威脅”，相反的，嚴重抽風的翻譯結果，反倒讓相關從業人員松了口氣，看來這行飯還可以吃很久……

尋找新的“巴別塔”

下文會對這次烏龍失誤提供一些技術面的看法，但既然談到機器翻譯簡史，就讓我們先把“博鼇翻譯事件”擱一邊，先回溯至語言翻譯的起點——巴別塔。

《聖經·舊約·創世紀》第11章記載，在大洪水退去後，這世界上的人類都是諾亞的子孫。大家說同樣的語言、用同樣的口音。那時人類開始通力合作，希望能夠建造名為巴別塔的通天之塔，這個舉動驚動了神，因此他讓全世界的人類開始有了不同的語言，從此人類再也無法齊心合作，讓造通天塔的計畫以失敗告終，語言差異也成為了人類溝通時最大的障礙。也許是血液中仍有想要重建巴別塔的夢想，因此翻譯就成為人類在過去千百年歷史不斷演進的重點文化工程。

語言的隔閡並不是那麼容易打破的，尤其是要跨語言來理解同樣的概念，人類歷史上第一次出現跨語言的平行語料，是製作於西元前196年的羅賽塔石碑（Rosetta Stone）上同時使用了古埃及文、古希臘文以及當地通俗文字，來記載古埃及國王托勒密五世登基的詔書。基於古希臘文的知識，語言學家可以很容易地根據這些平行語料理解原本艱澀難懂的古埃及文，這也是翻譯的重大里程碑。

機器翻譯進化史

基於規則的機器翻譯（RBMT）

至於機器翻譯的源頭，基本上可以追溯至1949年，資訊理論研究者Warren Weave正式提出了機器翻譯的概念。五年後，也就是1954年， IBM與美國喬治城大學合作公佈了世界上第一台翻譯機——IBM-701。它能夠將俄語翻譯為英文，你別看他有巨大的身軀，事實上它裡面只內建了6條文法規則，以及250個單詞，但即使如此，這仍是技術的重大突破，那時人類開始覺得應該很快就能將語言的高牆打破。

可能是神察覺有異，又對人類重建巴別塔的計畫潑了一桶冷水。 1964年，美國科學院成立了語言自動處理諮詢委員會（Automatic Language Processing Advisory Committee，簡稱ALPAC委員會）。兩年後，在委員會提出的報告中認為機器翻譯不值得繼續投入，因為這份報告，造成接下來的十來年中，美國的機器翻譯研究幾乎完全停滯空白。

從IBM的第一台翻譯機誕生到20世紀80年代，那時的技術主流都是基於規則的機器翻譯，最常見的做法就是直接根據詞典逐字翻譯，雖然後來也有人倡議加入句法規則來修正，但是老實說，翻出來的結果都很令人沮喪，因為看起來蠢到極點，因此，到了80年代這樣的做法就銷聲匿跡了。

為何語言沒辦法套用規則？因為語言是極其複雜且模糊的系統，從字的歧義到各種修辭，根本不可能窮舉出所有規則。但有趣的是，不少現在近期投身于自然語言的新創公司，仍然很多企圖用窮舉規則來解決中文語義，總覺得自己的冰雪聰明能夠完全覆蓋語言規則體系，但這種想法鐵定會是以失敗告終的。

我在這舉個例子來說明為何規則是不可行的，先別提翻譯在兩個語言轉換的複雜性，光是從中文來說，“快遞送貨很快”這樣的概念你能想到多少種講法？10種？還是100種？在我們之前做過的自然語言統計資料來看，一共可能會有3600種講法，而且這個數字應該還會隨時間增加，光一個概念如此簡單的句子就能有那麼複雜的規則體系，若用到翻譯恐怕規則量會是個驚人的天文數字，因此基於規則的機器翻譯思路就成為了昨日黃花。

基於實例的機器翻譯（EBMT）

在全世界都陷入機器翻譯低潮期，卻有一個國家對於機器翻譯有著強大的執念，那就是日本。日本人的英文能力差舉世皆知，也因此對機器翻譯有強烈的剛需。日本京都大學的長尾真教授提出了基於實例的機器翻譯。也就是別再去想讓機器從無到有來翻譯，我們只要存上足夠多的例句，即使遇到不完全匹配的句子，我們也可以比對例句，只要替換不一樣的詞的翻譯就可以。這種天真的想法當然沒有比基於的規則機器翻譯高明多少，所以並未引起風潮。但是沒多久，人類重建巴別塔的希望似乎又重見曙光。

基於統計的機器翻譯（SBMT）

引爆這波統計機器翻譯熱潮的還是IBM，在1993年發佈的《機器翻譯的數學理論》論文中提出了由五種以詞為單位的統計模型，稱為“IBM模型1”到“IBM模型 5”。（好吧……技術人員真的不太愛花時間取個響亮的名字）。

統計模型的思路是把翻譯當成機率問題。原則上是需要利用平行語料，然後逐字進行統計，例如機器雖然不知道“知識”的英文是什麼，但是在大多數的語料統計後，會發現只要有知識出現的句子，對應的英文例句就會出現“knowledge”這個字，如此一來，即使不用人工維護詞典與文法規則，也能讓機器理解單詞的意思。

這個概念並不新，因為最早Warren Weave就提出過類似的概念，只不過那時並沒有足夠的平行語料以及限於當時計算器的能力太弱，因此沒有付諸實行。現代的統計機器翻譯要從哪裡去找來“現代的羅賽塔石碑”呢？最主要的來源其實是聯合國，因為聯合國的決議以及公告都會有各個會員國的語言版本，但除此之外，要自己製作平行語料，以現在人工翻譯的成本換算一下就會知道這成本高到驚人。

在過去十來年間，大家所熟悉的谷歌翻譯都是基於統計機器翻譯。聽到這，應該大家就清楚統計翻譯模型是無法成就通天塔大業的。在各位的印象中，機器翻譯還只停留在“堪用”而非是“有用”的程度。但到了2014年，機器翻譯迎來了史上最革命的改變——“深度學習”來了！

神經網路機器翻譯（NMT）

神經網路並不是新東西，事實上神經網路發明已經距今80多年了，但是自從2006年Geoffrey Hinton（即：深度學習三尊大神之首）改善了神經網路優化過於緩慢的致命缺點後，深度學習就不斷地伴隨各種奇跡似的成果頻繁出現在我們的生活中。2015年，機器首次實現圖像識別超越人類；2016年，Alpha Go戰勝世界棋王；2017年，語音辨識超過人類速記員；2018年，機器英文閱讀理解首次超越人類。當然機器翻譯這個領域也因為有了深度學習這個超級肥料而開始枝繁葉茂。

深度學習三大神中的Yoshua Bengio在2014年的論文中，首次奠定了深度學習技術用於機器翻譯的基本架構，他主要是使用基於序列的遞迴神經網路（RNN），讓機器可以自動捕捉句子間的單詞特徵，進而能夠自動書寫為另一種語言的翻譯結果。此文一出，穀歌如獲至寶，很快地，在穀歌供應充足火藥以及大神的加持之下，谷歌於2016年正式宣佈將所有統計機器翻譯下架，神經網路機器翻譯上位，成為現代機器翻譯的絕對主流。

穀歌的神經網路機器翻譯最大的特色是加入了注意力機制（attention），注意力機制其實就是在模擬人類翻譯時，會先用眼睛掃過一遍，然後會挑出幾個重點字來確認語義的過程，果然有了注意力機制加持後威力大增。谷歌宣稱，在“英—法”，“英—中”，“英—西”等多個語對中，錯誤率跟之前的統計機器翻譯系統相比降低了60%（可見之前問題多大）。

神經網路雖然可以根據現有的平行語料學習，理解句中細微的語言特徵，但是它並非完美無缺，最大的問題來自于需要大量的語料以及它如黑盒子般的難以理解，也就是說，就算出了錯也無從改起，只能夠供應更多的正確語料來讓“深度學習”改正。也因此同樣一個句型，卻可以有截然不同的翻譯結果。（看看下圖的三個翻譯的例子，希望這只是穀歌內部的政治正確……）

今年2月，微軟讓機器語言理解超越人類後馬上又有新舉措，3月14日，微軟亞洲研究院與雷德蒙研究院的研究人員宣佈，其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中英翻譯測試集上，達到了可與人工翻譯媲美的水準。這自然是神經網路機器翻譯的一大勝利，當然在架構上也有了不少創新，其中最值得注意的是加入了對偶學習（dual learning）以及推敲網路（Deliberation Networks）。

對偶學習要解決平行語料有限的問題，一般來說深度學習必須同時要提供給機器答案，這樣機器才能夠根據它的翻譯結果與答案間的差異持續修正改進。

如果沒有足夠的平行語料，那機器該如何學習翻譯呢？對偶學習給了個有趣的想法，以中英文翻譯為例，那就直接把一個中翻英模型與英翻中模型銬在一起，一個中文句子先透過中翻英轉換為英文，然後再把這句英文送進英翻中轉換為中文，這時候只要兩個模型齊心協力，讓最終句子的中文輸出與原來輸入的中文句子相同，就表示兩個翻譯器都有正確的翻譯能力。也因此，只要用平行語料訓練有基本翻譯能力的兩個模型，接下來這兩個模型就能夠讓對偶學習在沒有平行語料的條件下持續精進。

至於推敲網路也是模仿人類翻譯的過程，通常人工翻譯會先做一次粗略的翻譯，然後再將內容調整為精確的二次翻譯結果，其實各位可以發現不管再聰明的神經網路，最終仍要參考地表上最聰明的生物，也就是身為人類的我們。

讓“松下問童子”的尷尬消失

機器翻譯的發展並不意味著未來翻譯界人士將會沒有飯吃了。可以注意到的是，微軟發佈會曾強調“通用新聞報導測試集newstest2017”的“中英翻譯測試集”上，資料集表現好未必能與通用性劃上等號，這也就可以說明為何騰訊翻譯君明明平常口碑不錯，但是為何在博鼇同傳卻表現失准。

同傳可以說是翻譯任務的頂點，除了要有正確聽力理解原句，還要在有限的時間內轉換為其他語言，而且別忘了講者不會給翻譯任何等待的時間，所以等於語音辨識與機器翻譯必須同步處理，再加上現場雜音、講者的表達方式、語氣詞感歎詞等等干擾因素都有可能會造成機器的誤判。

就筆者看來，騰訊翻譯君，可被指責的點可能只是不夠用功，沒有把關鍵的專有名詞錄入，這才會發生“一條公路和一條腰帶”這種“經典錯誤”。

但是撇開同傳，我用很經典的一個案例來測試谷歌翻譯、騰訊翻譯君、有道翻譯官以及彩雲小譯，用了一句唐詩“松下問童子”。各位可以看到錯誤最明顯的是穀歌，它翻譯成了“松下電器問了童子”，而從翻譯結果來看，騰訊翻譯君與彩雲小譯都完全正確，有道翻譯官只說對了一半，所以騰訊的翻譯能力還是在業界水準之上的。

從這裡也可以看到一個有趣的差異，為何西方機器翻譯錯得離譜，但是本國的機器翻譯卻幾乎都能掌握原意？這是因為語言不能脫離人類的使用場景而存在，即我們語文學習中常強調的上下文（context），這來自於我們過去的文化、過去共有的記憶所構成的，沒讀過唐詩的谷歌自然無法理解這句詩的精髓。語言會是人工智慧時代人類最後的壁壘，因為語言會因人類的使用不斷地發生變化，這是機器很難完美替代的。

隨著技術進步，終有一天，機器翻譯會從“堪用”變成“有用”，再進化至“好用”，但就如同我過去幾篇文章的論點一樣，機器不會搶了人類的工作，能讓人類失業的其實只有我們自己。如何善用人工智慧成為自己的工具，把自己從無聊繁瑣的工作中抽身，這才是面對未來的正確姿勢。

作者為：Deepbelief人工智慧科學家。華院資料科學家。2002年在中國臺灣創立亞洲資采，臺灣第一個大資料公司。

簡史系列：

婚紗簡史 / 高鐵簡史 / 支付簡史 / 便利店簡史 / 黃牛簡史 / 東京銀座簡史 / 口紅簡史 / 攝影簡史 / 香水簡史

「本文僅代表作者個人觀點」

「圖片 | 視覺中國」

“閱讀原文” 即可入學 “秦朔書院”

收聽“中美商業文明通史”

那時的技術主流都是基於規則的機器翻譯，最常見的做法就是直接根據詞典逐字翻譯，雖然後來也有人倡議加入句法規則來修正，但是老實說，翻出來的結果都很令人沮喪，因為看起來蠢到極點，因此，到了80年代這樣的做法就銷聲匿跡了。