“即時翻譯耳機”橫空出世，深度剖析三大核心技術｜獨家

（《麻省理工科技評論》中英文版APP現已上線，年度訂閱用戶每週直播科技英語講堂，還有科技英語學習社區哦~）

實際上，耳機是一個非常成熟的產業，全球一年市場銷售量超過 3.3 億對，每年維持穩定的成長。根據調研機構 Statista 預估， 2016 年全球耳機銷量約 3.34 億對，預估 2017 年會成長到 3.68 億對。其成長可以解釋的成因除了真正無線（True Wireless）之外，再有的就是智慧功能了。

不可否認的是，消費者可能每天會戴耳機聽音樂，但不會每天都有跟外國人對話的需求，這讓即時翻譯成為一種有也不錯而非必須性的附加性功能，因此耳機業者多會將其與更多功能結合，

包括無線、智慧語音助理等，因此即時翻譯耳機雖後端整合了許多深度學習的技術，目前看來仍是話題性遠高於實用性。

今年 Google 發表了一系列的硬體產品，其中 Pixel Buds 藍牙耳機除了可以呼叫 Google Assistant 外，最吸睛的就是結合自家 Google 翻譯可支援 40 種語言即時翻譯的功能。

不久之前，韓國最大搜尋引擎 NAVER 旗下的通訊軟體 LINE 也推出 MARS 翻譯耳機，對話的兩個人各自使用一個耳塞，就能立即從耳機中聽到翻譯的語音，背後同樣是仰仗自家的 AI 平臺 Clova 及 Papago 即時翻譯服務，目前可支援 10 種語言。

總部位於深圳的耳機公司萬魔（1more）聲學海外事業部總經理陳穎達接受 DT 君採訪時分析，耳機的新趨勢就是真正無線（True Wireless Earbuds）藍牙耳機＋智慧功能。在蘋果推出 AirPods 之後， True Wireless 的趨勢就確立下來了，音源與耳機或是左右耳的相通，完全不需要線路連接，跟過去藍牙耳機的左右耳還是有線相連不同。

在智慧功能方面有三大塊，首先是支持生物識別運動追蹤（biometric sports tracking）的運動耳機，例如可監測用戶心率、計算運動過程中燃燒的卡路里等，市場需求看好；第二則是整合語音助理如 Apple Siri、Google Assistant ；第三就是即時翻譯。

耳機的優勢在於普及性及方便性，是啟動個人化智慧服務、翻譯對話最直觀的第一個入口，除了大企業，不少初創或音響公司都看好這塊市場，例如德國品牌 Bragi 繼推出防水（可於游泳使用）、測量心跳的產品，又進一步推出結合 AI 技術及 iTranslate 應用，可即時翻譯的 The Dash Pro 耳機，另外英國的 Mymanu Clik 耳機也可支援 37 種語言即時翻譯。

雖然說在市場層面還存在疑問，即時翻譯耳機在技術上確實已經取得較大的進展。那麼，這些強調利用 AI 技術的即時翻譯耳機背後究竟是如何運作的呢？“三大核心：語音辨識＋機器翻譯＋語音合成，

”臺灣的中研院資訊科技創新研究中心副研究員曹昱清楚點出關鍵。

整個流程就是，耳機聽到對方講話的內容，識別出這是什麼語言如英文、西班牙文等，並且把語音變成文字，第二步驟以翻譯引擎進行文字對文字的翻譯，最後就是把翻譯結果做語音合成，播放出來。可以想成這是集合了聽寫員、翻譯員、朗讀員三個角色於一身。只不過，實際上每一個核心涉及的技術多且複雜。

一、語音辨識

首先使用的技術就是語音辨識， Speech Recognition、自動語音辨識（ASR， Automatic Speech Recognition）等都是常見的技術詞彙，目的就是把說話者的語音內容轉變為文字，目前多是以使用深度神經網路（DNN， Deep Neural Network）、遞迴神經網路（RNN，Recurrent Neural Network）為主。

語音辨識的應用場景相當廣泛，像是車內互動控制、智慧助理、智慧音箱、居家機器人等，主要的研究方向包括降噪、長距離識別等，目的都是為了提升識別度，例如居家機器人的問題就必須突破長距離語音辨識的問題。

無線耳機有四個關鍵零元件：喇吧單體、麥克風、藍牙晶片以及電池。一家外商聲學公司對 DT 君表示，要支援即時翻譯，麥克風就很關鍵，收音要夠清楚，語音辨識度才會高，在硬體上多會使用指向性麥克風，並且搭配語音辨識演算法，判斷聲音是來自講話者或環境，進而強化人聲，降低環境噪音的干擾。

過去語音辨識主要是採用高斯混合模型（GMM，Gaussian Mixture Model）＋隱瑪律科夫模型（HMM，Hidden Markov Model）、支援向量機（SVM，Support Vector Machine）演算法等，一直到神經網路之父 Geoffrey Hinton 提出深度信念網路（DBN，Deep Belief Network），促使了深度神經網路研究的復蘇，並且將 DNN 應用於語音的聲學建模，獲得更好的表現，之後微軟研究院也對外展示出利用 DNN 在大規模語音辨識取得顯著的效果提升，大量的研究陸續轉向了 DNN，近來又有不少基於遞迴神經網路開發的語音辨識系統，例如 Amazon Echo 就使用了 RNN 架構。

二、機器翻譯從規則、SMT 走向 NMT

第二個階段就是翻譯，在人工智慧中，機器翻譯一直是許多人想突破的領域，概念就是通過分析原始語言（Source Language）找出其結構，並將此結構轉換成目的語言（Target Language）的結構，再產生出目的語言。

初期多是採取把語言規則寫進系統的方式，但這種以規則為主的機器翻譯（RBMT，Rule-based Machine Translation）是將人類譯者或是語言學家建構的詞彙、文法、語意等規則寫成電腦程式，但語言規則難以窮盡，而且例外、俚語也不少，除了耗費人力，翻譯結果的準確性也遭人詬病，使得機器翻譯的發展一度被打入冷宮。

到了 80 年代晚期，IBM 率先展開並提出統計式機器翻譯（SMT，Statistical Machine Translation）理論，主要的研究人員 Peter Brown 、 Robert Mercer 等陸續發表《A Statistical Approach to Machine Translation》、《The Mathematics of Machine Translation: Parameter Estimation》論文，不僅被視為是該領域的開山之作，也再次引爆了機器翻譯的熱潮。

SMT 主要是通過搜集大量的原文與譯文，通過統計模型讓電腦學習字詞的產生、轉換、排列，形成合宜的句子，簡單來說，例如 1000 句中文就有 1000 句英文進行對照，像是聯合國有 6 種官方語言檔，加拿大政府的官方檔也有英文及法文，以及辭典，都是常被使用的素材。

不過，就在 SMT 火紅了，並且成為機器翻譯領域的主流技術之後，這兩位專家卻加入知名的量化基金公司 Renaissance Technologies，跑去華爾街用數學及統計模型分析股票、管理基金，變成了 10 億美元級別的富豪。

“以機器翻譯而言，20 年前 IBM 播種，20 年後 Google 收穫”，臺灣清華大學自然語言處理研究室教授張俊盛曾如此形容。

Google 翻譯是目前全球擁有最多用戶的翻譯平臺，2000 年初 Google 就開始投入機器翻譯的研究，並且延攬了多位重量級人物協助開發，包括語音公司 Nuance 創始人 Michael Cohen 、知名機器翻譯專家 Franz Och 等人。

最初負責領導整個 Google 翻譯架構及服務開發的 Franz Och 曾表示，Google 翻譯計畫在 2001 年啟動時只支援 8 種語言，速度很慢、品質不佳，到了 2006 年他們開始採用統計式機器翻譯，並且同時利用大量的語料庫作為訓練。身為搜尋引擎龍頭，優勢就是可通過網路搜集龐大的語料庫、雙語平行資料，提升機器翻譯的水準。

那時 Google 採用 SMT 中最普及的一個演算法——片語為本的機器翻譯（PBMT，Phrase-based Machine Translation），把一個句子切成多個單字（words）或短語（phrases）之後個別翻譯。不過，這位 Google 翻譯之父在 2014 年離開 Google 加入生醫初創公司 Human Longevity，現則任職於癌症篩檢初創公司 Grail。

但 Franz Och 的離開，並未對 Google 造成太大困擾，因為幾年前 Google 就開始使用 RNN 來學習原文與譯文之間的映射，到了 2016 年下旬 Google 正式發表翻譯服務上線 10 年以來最大的改版，宣佈轉向採用類神經機器翻譯（NMT，Neural Machine Translation），也就是現在大家耳熟能詳的深度學習神經網路模型，以多層次的神經網路連結原文與譯文，輸出的字詞顧慮到全句文脈，同時，也使用了大量 Google 自家開發的 TPU 來處理複雜運算，一舉提升翻譯的水準。

其實，利用深度神經網路進行機器翻譯的概念在 2012、2013 年就被提出，DeepMind 研究科學家 Nal Kalchbrenner 和 Phil Blunsom 提出了一種端到端的編碼器-解碼器結構，“不過，一直到 Google 出了論文，用 NMT 取代 SMT，讓大家完全相信神經網路在翻譯是可行的，現在幾乎所有公司都轉向 NMT，我個人的想法是大概再三年機器翻譯就可以達到人類翻譯的水準”，專攻深度學習機器翻譯的初創公司真譯智慧創辦人呂慶輝如是說。

此後，NMT 成為了新一代機器翻譯的主流，採用這種技術的服務在 2016 年下半年開始大量問世，Facebook 在今年 5 月也宣佈將翻譯模型從 PBMT 轉向了 NMT。

Google 翻譯產品負責人 Barak Turovsky 不久前接受媒體採訪時表示：“SMT 是一種老派的機器學習（an old school machine learning）”，在網路上查找人類已經翻譯過的內容，將其放進一個超大型的索引中，機器就開始看統計模式學習翻譯。PBMT 的局限就在於必須把句子切成好幾塊，執行翻譯時只能同時考量少數幾個文字，而不是考慮上下文，所以如果要翻譯的語言是屬於不同語序結構，就會顯得相當困難。

NMT 最大的突破就是它的運作方式類似於大腦，將一整個文句視為是一個翻譯單元（unit），而非將文句切成好幾塊，這有兩個優點，一是減少工程設計的選擇，二是可依據上下文判斷，提升翻譯的正確性及流暢性，聽起來會更自然。

在 NMT 技術中，除了遞迴神經網路（RNN）、卷積神經網路（CNN）、序列到序列（sequence-to-sequence）的長期短期記憶模型（LSTM，Long Short-term Memory）之外，近期的研究焦點包括了自注意力（Self-Attention）機制、以及利用生成式對抗網路（GAN，Generative Adversarial Networks）來訓練翻譯模型。

三、語音合成追求人類般的自然

即時翻譯耳機的第三步驟就是語音合成（Speech Synthesis）或稱為文本轉語音（TTS，Text to Speech），也就是讓電腦把翻譯好的文字變成語音，並播放出來。重點在於如何生成更逼真的語音、更像人類說話的口氣跟語調。

讓電腦講人話的企圖心同樣在很早期就出現，1970 年代就有了第一代的 TTS 系統，例如半導體公司德州儀器（TI）開發數位信號處理（DSP）晶片，還推出一個 Speak＆Spell 玩具，會把打字的內容念出來，説明小朋友學習。之後隨著科技的進步，合成技術也從單音、片段變為可產生連續式的語音。

簡單來說，要讓電腦發出與人類相似的語音，通常會先錄下人類或配音員說話，建立錄音樣本，再把單字切成音素（phoneme），並對錄音進行分析，量測語調、速度等，建立語音模型，就可以製造出先前未錄下的單字或句子。接著當文字輸入，系統會選出適合的音素、音調、速度進行重組，再把這段文字轉成語音播放出來，就像人說話一樣。

“目前語音合成技術應該就是 DeepMind 開發的 WaveNet 最自然”，曹昱指出。

語音合成以拼接式 TTS（concatenative TTS）為基礎，需要大量的人類語音片段作為資料庫，但如果想要轉換為另一位說話者、或是加強語氣或情緒，就必須重建新的資料庫才能做到，使得修改語音的難度很高。

因此，出現了另一種參數式 TTS（parametric TTS），產生資料所需的所有資訊都被存儲在模型的參數之中，只要通過模型的輸入值，就能控制語音的內容和特色，再把輸出值丟到語音編碼器（Vocoders）來產生聲音，是一種完全由機器生成的語音，優點是成本較低，缺點則是機械味較重。

而 WaveNet 使用 CNN 架構，同樣是拿人類說話作為訓練素材，但不像拼接式 TTS 把聲音切成許多片段，而是使用原始波形，而且為了讓聲音更逼真，也必須告訴機器文本（text）內容是什麼，所以也將把文本轉換為語言或語音特徵喂給機器，“不僅要考慮以前的音訊樣本，還要靠慮文本內容”，所以還可以做出像人類講話時的口氣停頓或是呼吸的聲音。這些都讓 WaveNet 的語音合成更有“人味”，今年 10 月 Google 宣佈把最新版本的 WaveNet 放到美式英文版以及日文版的 Google Assistant 中。

隨著深度學習技術的發展，不論是在語音辨識、機器翻譯、還是語音合成，都可看到應用水準已有所提升，不過，即時翻譯耳機的實際應用仍無法滿足所有人，舉例來說，Google Pixel Buds 的翻譯功能只限于 Pixel 2 手機使用，而且要一句一句說，還無法提供連續性的翻譯，例如當你想要用它來看外國電影，這個方法就行不通。

另外，Pixel Buds 的麥克風收取使用者的聲音，然後通過手機大聲說出翻譯，對有些人還是會感到有一些尷尬。而 LINE 的 Mars 耳機是讓對話的兩人各戴一個耳塞，翻譯的內容只有自己聽得到，看似可以解決這個尷尬問題，但實際效果如何還得待 2019 年上市後才知道。

雖然即時翻譯耳機還不夠完美，是否能夠通過市場的檢驗還未可知，但要往零阻礙溝通的方向前進，AI 無疑將扮演重要的角色。

Deep Neural Network）、遞迴神經網路（RNN，Recurrent Neural Network）為主。