除了葷段子翻譯傳神，中國翻譯軟體到底能和穀歌競爭什麼？

今天愚人節，我卻在寫嚴肅的東西。

上周我在虎嗅撰文致意吳恩達先生的離職，文中有兩處提到谷歌翻譯和百度翻譯的對比：一處是說百度領先穀歌一年上線基於NMT神經網路的翻譯系統，一處是說百度翻譯的功能體驗不如穀歌方便。巧的是幾天之後， 3月29日，谷歌翻譯APP就重返中國大陸，引起一片歡騰。

此次穀歌優化了中國大陸地區的用（bu）戶（yong）體（fan）驗（qiang），有網友一邊感歎，一邊順帶懷念了穀歌全家。

在段子手國度，此事很快演變成狂歡。人們拿出各種網路用語虐各家翻譯軟體，對比結果。

有人說，與谷歌翻譯比，中國的翻譯軟體都是垃圾。也有反懟穀歌的。連谷大白話老師也上陣笑侃，拿出“不明覺厲”、“活久見”、“朝陽群眾”、“啪啪啪”調戲穀歌，結果顯示搜狗翻譯更走心：

圖片來自谷大白話文章

我覺得，這種事，各方都能找出幾個例子來證明對方不行自己行。玩玩可以，當真了就不嚴肅。而且如果一味強調本地段子翻譯准，就好比問對方茴香豆的“茴”字有幾種說法，沒什麼實際價值。下面從技術本質角度來談一談。

翻譯有多重要

巴別塔的典故傳了不知道多少遍，可見翻譯應該是個普世的工作。相比段子，我更想把技術人的想法“翻譯”出來，談談國內各翻譯巨頭到底在和穀歌比拼什麼。

誇張點說， “翻譯”是人類資訊文明的一切。

翻譯背後是語言，語言的本質是符號，翻譯就是符號的“編碼”和“解碼”。從一種語言翻譯到另一種語言，就是對一種編碼進行解碼，再重新編碼為另一套體系。

人類文明萌芽於符號（語言），赫拉利老師在《人類簡史》中就強調，我們的智人祖先正是因為有了完備的語言，才能組織起來，擊敗身體強壯的尼安德特人。

現代文明無不基於符號的流通、利用。法國哲學家、符號學家鮑德里亞善於“翻譯”當代生活。比如《消費社會》一書就把消費行為當作一種語言行為——你消費任何商品都是在表達某種意思。以往經濟學家強調商品的使用價值和交換價值，鮑德里亞看到的是：

商品的物質“使用價值”不再重要，符號價值才重要。商品就是一種語言符號，消費成了一種言說。愛漂亮衣服，愛打折標籤，你是凡客。吃西少肉夾饃、騎摩拜單車，你是創業狗。

今天的人類生活更是進入了“過度”符號化的時代。

資訊技術的發展可以描述為資料符號“侵襲”自然生活。想想， “宅男”、“二次元”的另一面就是“真實”生活退後，人們都生活在經過互聯網編碼後的世界裡。

在這種時代，依賴符號運作的機器反而如魚得水。因為它們的一切運行以符號（代碼、函數、資料、標籤）為基礎。追溯電腦的發明，無非是人類把自己的意圖翻譯成機器可以理解的語言，促成機器的行動。一切資訊都是“語言”，一切語言傳遞都是編碼——解碼。所以， “翻譯”成了人工智慧的關鍵。

觀察當下AI大企業，技術線路都有清晰的兩塊，一塊是圖像識別、語音辨識方向，一塊是自然語言處理方向。從阿裡的小黃圖牛皮蘚鑒別、訊飛的語音辨識，甚至到百度的無人車，更多利用前者。從百度的搜索、翻譯、度秘到阿裡的機器客服、搜狗的輸入法，更多基於後者。

二者是並列的關係嗎？新任百度AI技術平臺體系（AIG）負責人王海峰說過一段話：

相對於看、聽和行動的能力，語言是人類區別於其他生物最重要的特徵之一。視覺、聽覺和行為不僅是人特有的，動物也會有，甚至比人強，但是語言是人特有的。AlphaGo對於普通人來講是非常震撼的一件事情，我們也認為它是一個挺大的成績。但是我們也不能忽略，它的規則是明確的，空間是封閉的，為圍棋訓練出來的程式下象棋就不好用。基本來講是一個可解的問題，但是語言的很多問題是更難解的。

幾天前坊間有文章談及百度結構大調整，用了“王海峰的崛起”這樣的小標題。我以為除了人事戲碼，更可以從自然語言處理技術的重要性來理解。

機器翻譯的進化

翻譯，是“自然語言處理”的最重要分支，也是比較難的一支。人工智慧在早期就是符號智慧，人把各種規則變成符號算式輸入機器。

最早的機器翻譯方法就是基於詞和語法規則。注意，人類並不瞭解大腦是如何工作的，但是依然工作的很好。反過來，人類自己語言熟練，不代表人能理解自己語言神經是怎麼運作的。這就導致依賴人工規則的翻譯軟體笑話百出。即便現在，穀歌、百度也無法避免下面這樣的翻譯錯誤：

谷歌翻譯

百度翻譯

後來出現了“統計機器翻譯方法”（SMT），也就是通過對大量的平行語料進行統計分析，找出常見的詞彙組合規則，儘量避免奇怪的短語組合。

SMT翻譯短語效果好，但是翻譯句子就一般，直到近幾年基於神經網路的翻譯模型（ NMT）崛起。與AlphaGo的神經網路原理類似，NMT類比人腦神經的層級結構，具有多層晶片網路，從基礎層開始，每一層都對從上一層接收來的資訊進行抽象，自動識別出語言的規則、模式。人不瞭解那些規則也沒關係，反正交給機器了，只要結果正確即可。這就是端到端的翻譯。

但是無論SMT還是NMT，前提是資料量要大，否則這樣的系統也是無用的。簡單的說，規則都是用函數表示的。假定給你一個未知函數f(x)，我告訴你當x=5，f(x)=250，你能推導出函數式f(x)到底是什麼嗎？顯然不能，可是如果給你100個x的具體值，及其對應的f(x)的值，你就可以通過數學學科裡的逼近計算或者擬合函數推導出一個近似的函數f(x)。如果讓機器去做這個推導，那就叫做“機器學習”。吳恩達的著名項目機器識別貓，就是輸入了數百萬貓的照片（x），告訴機器輸出結果是貓這個語詞，機器自己找到了圖像形狀到貓之間的推導規則。

在翻譯界的常識是：機器翻譯是突然爆發的，原因在於互聯網帶來的大資料。前谷歌工程師吳軍在《智能時代》裡說過，2005年，谷歌翻譯在美國翻譯界大賽上異軍突起，秒殺老牌翻譯公司，靠的就是更多的資料。因為穀歌有互聯網，有網上人類提供的海量翻譯例句。

十年後機器翻譯第二次爆發。百度和穀歌一前一後上線NMT神經網路翻譯系統。相比SMT聚焦於局部資訊（短語），NMT更擅長利用全域資訊——在對整個句子的資訊解碼、編碼後，才生成結果。所以無論是語音辨識還是翻譯，你會發現句子長一點，機器識別和翻譯的效果就會更好一點。

比如，語序問題是“翻譯”頭疼的問題，中文會把所有的定語都放在中心詞前面，英文則會倒裝，以往機器常混淆這個順序。 NMT通過基於深度學習的神經網路，向人類較好地學習到語序模式，長句翻譯比以往流暢多了。

為了優化對人類語言世界的理解，穀歌和百度都構建了龐大的知識圖譜，知識點之間不斷生成的關係非後來者能追。

段子手的調侃也抓住了一些本質——由於長期被排除在中國市場之外，谷歌缺少中文資料。去年穀歌的“你畫我猜”遊戲風靡一時，我看那其實就是一種資料獲取和訓練辦法。玩家的每一次繪畫和判定都是在教育穀歌的圖像識別系統更精准。穀歌善於用喜聞樂見方式，既做到PR也做到技術提升。

谷歌翻譯進入大陸，以後用的人越多，它的段子也可能翻譯越准。所以比段子沒什麼好得意的。人類之間存在文化壁壘，但是對於沒文化的機器，一切壁壘都會擊穿，或者說一切文化他都能學會，從推特上的種族歧視言論到中國的神段子。真正要比拼的只有技術深度和產品體驗的積累。

僅從技術角度來講，我說一切都是翻譯。語音辨識也是一種翻譯（從聲音信號翻譯到文字符號，或者從一種發音翻譯到另一種發音）。機器人的文藝世界也離不開翻譯。英特爾、百度等公司都推出過機器寫詩遊戲，經常真假難辨。

左邊為百度寫詩機器人的作品，右邊為宋代詩人葛紹體所作

聽王海峰介紹過機器寫詩的原理。出乎很多人的意料，這個寫詩系統正是用翻譯模型來做的。在系統看來，當已經有了第一句詩，那麼寫作第二句詩的過程就是一個翻譯過程——根據第一句尋找合適的對應語句：

首先根據使用者 Query（詩歌題目）對要生成詩歌的內容進行規劃，預測得到每一句詩的子主題，每一個子主題用一個單詞來表示。這個過程和人類創作詩歌比較相似，詩人在創作之前往往會列出提綱，規劃出每一句詩要描寫的核心內容，然後再進行每句詩的創作。主題規劃模型在生成每一句詩的時候，同時把上文生成的詩句和主題詞一起輸入來生成下一句詩。在這裡，主題詞的引入可以讓生成的詩句不偏離主題，從而使整首詩都做到主題明確，邏輯順暢。

基於主題規劃的詩歌生成框架（寫詩 2.0 版本）如圖所示：

寫詩 2.0 框架（來源於論文 Wang et al. 2016），有興趣讀者可以參考“機器之心”上這篇有趣文章，另外我不同意詩人寫詩是先給每一句詩列提綱的。

翻譯技術無處不在，這樣我們才能從技術角度理解為什麼亞馬遜、穀歌、百度都無比重視智慧音箱產品，那就是一個人機對話系統，在人與機器世界之間充當翻譯官角色。

還有“實物翻譯”和“拍照翻譯”功能，目前穀歌和百度在做。實物翻譯主要是圖像識別技術，拍照識別物體是什麼並提供相關資料。拍照翻譯，谷歌的產品體驗做的好，拍照時候翻譯結果直接融入實物，有種虛擬實境的效果。據傳，百度翻譯原本也打算這樣做，但最終選擇了更複雜的對話模式——需要使用者用手指塗抹照片相應部位才會出現翻譯效果。我覺得，除了要反思技術宅對手指的過分重視，產品體驗也是一個需要悟性的領域。

百度工程師話不多，但是翻譯的介面有點話多，穀歌介面則極簡

善解人意，是翻譯要求的品質，也是用戶體驗要求的品質。國內的技術型科技企業似乎都有產品體驗弱的問題。比如訊飛的語音輸入技術很強，但是輸入法產品設計上就弱了點，全鍵盤首屏有些常用標點沒有，也沒有百度輸入法和搜狗輸入法那樣方便調出的多重記錄剪貼板。

訊飛手機輸入法截圖

我給雙方都提過產品建議，誰會更快修改呢？

谷歌翻譯APP重返大陸，想必會給國內企業帶來衝擊，對於改善用戶體驗是大好事。有競爭才有進步。

技術論劍

產品體驗容易學，技術積累更是苦功夫。我相信技術人自己是絕不會只為段子翻譯傳神而沾沾自喜的。在自然語言處理方面，各家巨頭都在比拼。

穀歌自不用說，2016年，穀歌人在《Nature》、《PNAS》、《JAMA》三大頂級科學期刊驚人地發表了218篇論文，絕大多數都關於人工智慧領域。

去年微軟亞洲研究院的秦濤和他的團隊，在機器翻譯領域提出“對偶學習法”，聽起來很有創意。目的是：利用沒有標注的資料。要知道，一般機器學習需要人類標注過的資料。比如一張貓的圖片需要人工打上“cat”文字標籤，然後拿去訓練機器。但是人工標注成本高，探求如何讓機器自主學習就成了未來發展方向。

秦濤團隊認為：很多人工智慧的應用涉及兩個互為對偶的任務，例如從中文到英文翻譯和從英文到中文的翻譯互為對偶、語音辨識和語音合成互為對偶、基於圖像生成文本和基於文本生成圖像互為對偶、搜尋引擎中給檢索詞查找相關的網頁和給網頁生成關鍵字互為對偶等等。這些互為對偶的任務可以形成一個閉環，使從沒有標注的資料中進行學習成為可能。通過設定一個精巧的原始任務模型，對偶任務可以自回饋自學習。（有興趣讀者可以參考微軟亞洲研究院主頁上的這篇文章）

在自然語言的自主學習領域，最近百度也搞了個大新聞。余昊男、張海超、徐偉發表了一篇論文，提出了一個新的框架，把視覺識別和自然語言處理技術結合起來，讓AI機器人在沒有先驗知識的情況下，自己學會理解人的命令並在迷宮中導航並定位物體。

他們把初始機器人稱做嬰兒智慧體，用無數回合來反覆運算訓練。在每個回合，只給出極少的圖元和語言指令，通過梯度下降，端到端地從零開始訓練，讓AI在實驗中自主學習環境的視覺表示，語言的句法和語義，以及如何在環境中給自己導航。比如要求智能體能夠推廣解釋從未見過的命令和詞彙。

我認為這是一項了不起的探索。為什麼？前面我說人類進入了過度符號化世界，其實略有遺憾。過度符號化意味著脫離現實和實踐。而這篇論文A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment旨在把AI從符號世界放入物理世界，認為只有物理世界的回饋才能讓AI真正智慧。研究團隊認為：

複雜語言系統的發展是實現人類水準的機器智慧的關鍵。語言的語義來源於感知經驗，可以編碼有關感知世界的知識。這種知識能夠從一個任務遷移到另一個任務，賦予機器泛化的能力（generalization ability）。有研究認為，機器必須經歷物理的體驗，才能學習人類水準的語義[Kiela et al., 2016]，即，必須經歷類似人類的語言習得過程。然而，目前的機器學習技術還沒有能以高效率實現這一點的方法。因此，我們選擇在虛擬環境中對這個問題進行建模，作為訓練物理智慧型機器的第一步。（譯文來自“新智元”）。

有必要重溫吳恩達的話：人工智慧領域，很多創新都是中國人做出來的。

那麼中國企業還缺什麼？古人曰，做人要“世事洞明，人情練達”，改一下就可以送給中國AI企業：“技術洞明，產品練達”。技術好，還要轉化為產品的體貼和話語的高度。當然，中國人總是與最好的比，要求很高，動力很足。

我聽到百度基層的工程師朋友誇谷歌翻譯好，我覺得，這是正確的態度。“翻譯”乃國之重器，文明重器。想想嚴複當年對進化論的曲解翻譯是如何影響中國救亡運動的？技術人或許也需要這樣的高度。

*文章為作者獨立觀點，不代表虎嗅網立場

本文由餘亮授權虎嗅網發表，並經虎嗅網編輯。轉載此文請于文首標明作者姓名，保持文章完整性（包括虎嗅注及其餘作者身份資訊），並請附上出處（虎嗅網）及本頁連結。原文連結：http://www.huxiu.com/article/188613.html

未按照規範轉載者，虎嗅保留追究相應責任的權利

更多利用前者。從百度的搜索、翻譯、度秘到阿裡的機器客服、搜狗的輸入法，更多基於後者。