您的位置:首頁>科技>正文

文本直送科技新聞:Google 機器學習應用分享:基於機器學習並持續進化的翻譯

近期因為 Alpha Go 持續在圍棋領域擊敗各界好手, 人工智慧議題又開始獲得關注, 當然人工智慧並非新技術, 但在機器學習技術於硬體、演演演算法雙方面逐趨成熟後,

人工智慧發展獲得飛躍性成長, Google 為了讓媒體對機器學習的應用有更多瞭解, 也預計規畫一系列定期講座, 每一季以一個相關議題進行探討, 而今天則首度以 Google 翻譯為議題, 探討導入機器學習後帶來的效益。

Google 臺灣總經理簡立峰表示,

人工智慧並非新議題, 早就開始被應用在各項領域, 早期像是垃圾信辨識就已經導入人工智慧, 然而過去在演演演算法與硬體發展限制下, 人工智慧發展一度碰壁, 但隨著 Google 開始導入機器學習後, 停滯的齒輪又開始轉動, Google 也將 TensorFlow 演演演算法開放, 促進人工智慧與機器學習的發展。

簡立峰表示, 目前人工智慧雖獲得大幅成長, 不過仍僅限於特定領域, 人工智慧能達到的領域在於能夠被預測並且可學習的領域, 例如垃圾郵件、圍棋等, 但像是難以被預測、難以判斷知識領域, 例如哲學、思考邏輯、感官等, 就無法以人工智慧實現。

目前人工智慧以人類能力區分可簡單分為三個層級, 包括透過各種感測器達到超人類的超人級, 與人類能力近似如影像辨識的類人級, 以及低於人類能例如翻譯的次人級。

在簡立峰作為簡短的人工智慧發展論述後, 接著由 Google 在美國總部份負責 Google 翻譯的產品經理 Julie 針對目前 Google 翻譯如何應用人工智慧作介紹; Julie 表示, 翻譯服務是相當重要的功能, 因為目前高達五成的網頁內容是以英文撰寫, 但使用英文作為主要語言的使用者卻不到兩成, 是故 Google 在推出翻譯服務後也獲得好評。

不過不知道在初期就開始使用 Google 翻譯的使用者有沒有發現, Google 翻譯在 2015 年下半年後, 精確度開始變高,

更像是自然翻譯的結果, 這是因為在 2015 年 9 月開始導入機器學習( NMT )取代原本的片語式架構, 且目前導入的成果超過預期, 在 13.5 個月內達到當初預期 3 年才能提供的服務水準, 截自今年 4 月已經能提供 26 種翻譯語言。

目前 Google 翻譯透過機器學習, 約可在 2 到 3 周訓練一個模型基礎, 學習內容超過一億個案例,現階段已經提供 103 個平方組的模型;同時 Google 翻譯也為了加速模型產生,透過多語言模型交叉訓練學習,把不同語言、相同語意歸納,使翻譯訓練能在兩周內由 10 秒縮減到 0.2 秒。在透過機器學習後,最關鍵的是能夠判斷前後文的關係選擇正確詞彙,也因此能夠提供更接近人工翻譯的水準。

另一個結合多重機器學習應用的翻譯,就是 Google 的即時鏡頭翻譯,即時鏡頭翻譯透過影像辨識、分析文字、翻譯後再于螢幕上顯像;為了提升文字圖像辨識能力, Google 刻意提供與真實情況相同的模糊印刷文字、污漬、塵點等文字作為學習基礎,也因此能達到高精確的即時鏡頭翻譯品質。

Google 目前也打算在幾項 Google 翻譯領域持續強化,包括數位與日期,如人名等特殊名詞以及簡短與罕見查詢字串等,尤其像是人名與特殊名詞也是目前 Google 翻譯常遇到但卻無法正確翻譯的情境;至於口語化語句目前難以翻譯的主因,仍是因為無法提供充裕的學習樣本,畢竟口語化語句平常較少用於常規網頁內容撰寫,當遇到此類特殊用法時,目前還是無法提供正確的翻譯結果。

其次目前簡體、繁體中文(包括臺灣與香港用語)仍歸納在相同的模型中,最主要的考量還是因為資料量,畢竟越充裕的資料量也能夠獲得越正確的結果,雖然各地的名詞還是有所不同,不過藉由機器學習的前後語意判斷,在顯示簡體或是繁體語言時,也能更正確的顯示簡體或是繁體的翻譯結果。

# 機器學習# Google 翻譯# 深度學習 deep learning# 機器學習應用# 機器學習技術 學習內容超過一億個案例,現階段已經提供 103 個平方組的模型;同時 Google 翻譯也為了加速模型產生,透過多語言模型交叉訓練學習,把不同語言、相同語意歸納,使翻譯訓練能在兩周內由 10 秒縮減到 0.2 秒。在透過機器學習後,最關鍵的是能夠判斷前後文的關係選擇正確詞彙,也因此能夠提供更接近人工翻譯的水準。

另一個結合多重機器學習應用的翻譯,就是 Google 的即時鏡頭翻譯,即時鏡頭翻譯透過影像辨識、分析文字、翻譯後再于螢幕上顯像;為了提升文字圖像辨識能力, Google 刻意提供與真實情況相同的模糊印刷文字、污漬、塵點等文字作為學習基礎,也因此能達到高精確的即時鏡頭翻譯品質。

Google 目前也打算在幾項 Google 翻譯領域持續強化,包括數位與日期,如人名等特殊名詞以及簡短與罕見查詢字串等,尤其像是人名與特殊名詞也是目前 Google 翻譯常遇到但卻無法正確翻譯的情境;至於口語化語句目前難以翻譯的主因,仍是因為無法提供充裕的學習樣本,畢竟口語化語句平常較少用於常規網頁內容撰寫,當遇到此類特殊用法時,目前還是無法提供正確的翻譯結果。

其次目前簡體、繁體中文(包括臺灣與香港用語)仍歸納在相同的模型中,最主要的考量還是因為資料量,畢竟越充裕的資料量也能夠獲得越正確的結果,雖然各地的名詞還是有所不同,不過藉由機器學習的前後語意判斷,在顯示簡體或是繁體語言時,也能更正確的顯示簡體或是繁體的翻譯結果。

# 機器學習# Google 翻譯# 深度學習 deep learning# 機器學習應用# 機器學習技術
Next Article
喜欢就按个赞吧!!!
点击关闭提示