人工智慧又又又摔了個跟頭。
今年的博鼇亞洲論壇上, 第一次出現了AI同傳。 值得注意的是, 這是博鼇論壇創辦17年首次採用人工智慧同傳技術。
人們總是把AI跟人類職位對立起來, 各種“取代論”層出不窮。 博鼇論壇會議前, 就出現了許許多多的“取代論新聞”引起了各界關注。 最終, AI同傳“翻車”, 引來外界一片唏噓。
然而, 就目前來看, AI同傳前路未明, 太早將其與人類同傳對立起來實在是“杞人憂天”。 除了取代, AI同傳其實有更好的路。
圖為AI同傳內容
AI同傳進階之路:變智慧問題為資料問題很多人都覺得人工智慧如果要處理自然語言, 就必須理解自然語言。 實質上, AI翻譯靠的是數字, 更準確地來說, 是統計。 AI同傳出錯, 並不是“智慧”不夠, 實質上, 是資料和模型出了問題。
AI同傳還需要理解力首先, AI同傳要去理解場景。 在博鼇論壇上, 會議現場專業度高、覆蓋度廣, AI對特殊場景的理解還不夠。 場景對於語義具有至關重要的影響, 相同的一句話在不同的場景裡有不同的意思。 舉個例子, “好 ”這個字在百度漢語顯示有多種語義,
其次, AI要理解口語的模糊邏輯。 口語翻譯是不會百分百傳譯的, 根據 AIIC(國際會議口譯員協會)的規定, 同傳譯員只要翻譯出演講者內容的80%就已經算是合格了(90 %~100 %的“同傳”幾乎是不可能的)。
這意味著AI工作量減少嗎?當然不, 正是這種模糊的東西使得AI同傳更加困難, 除此之外, 口語沒有標點符號來標誌句子, 缺少了必要的聲調和停頓, 就很容易造成句子的歧義。 而模糊的指令極有可能出現的是滿屏的錯碼。
隱瑪律可夫模型(HMM)解決統計資料之外的語言問題然而,
比如一個漢語的語言模型, 就足足達到20萬這個量級。 曾有人做過這樣一個假設, 如果刨掉互聯網上的垃圾資料, 互聯網中將會有100億個有意義的中文網頁, 這還是相當高估的一個資料, 每個網頁平均1000詞, 那麼, 即使將互聯網上上所有中文內容用作訓練, 依然只有1013。
為了解決資料量的問題, 我們提出了隱瑪律可夫模型(HMM)。 實際應用中, 我們可以把HMM看作一個黑箱子, 這個黑箱子可以利用比較簡潔的資料, 處理後得出:
每個時刻對應的狀態序列;混合分佈的均值和方差矩陣;混合分佈的權重矩陣;狀態間轉移概率矩陣。看起來可能比較複雜, 簡單點說, 這個模型可以通過可觀察的資料而發現這個資料欄外的狀態, 即隱含狀態。 也就是說, 我們可以憑藉一句話, 來探索出這句話後的隱含的意思, 從而解決一些微妙的語義問題。
如上圖所示,這個模型能夠通過你提供的可以明顯觀察的句子,推斷出一個人隱含的心情狀態(開心OR難過),並得到最後的行為判斷(宅、購物、社交),即通過已知推斷出未知。
而如何優化這個模型,得到最優隱含狀態?人們提出了許多解決問題的演算法, 包括前向演算法、Viterbi演算法和Baum-Welch演算法。此中奧妙,難以盡述。
但不能否認的是,在深度學習的基礎上,資料+模型就能很好地打造出一款AI同傳翻譯,資料越大,神經網路更好。即使翻譯結果不盡如人意,但只要建設足夠大的資料庫,建立更好的模型,打磨演算法,AI同傳很快就會有更大的提升。
NLP金字塔頂端反哺底端:打造高品質AI同傳除了增加資料庫和打磨資料模型,AI同傳還可以從哪些方面提升呢?我們不妨借鑒一下其它的技術。下圖中,這四個方面代表了人們在 NLP 領域的一些進步。用金字塔形來表示這四個技術之間的關係,難度是逐級上升的。
目前,聊天機器人和閱讀理解這一塊兒已經取得了很大的突破。而AI閱讀理解技術的進步不止是NLP的高階進化,還有一層意義是,科學之間是相通的,技術之間可以互相借鑒,金字塔頂端技術可以反哺底端。
在自然語言處理上,人區別於AI的點在於人有先驗知識。即人們在聽到某個字時,會自然地聯想到後一個字,或者會被一個詞觸發了一句話的聯想。比如,我們聽到“中”,既有可能想到“國”,也可能想到“間”。但是AI“聯想”的詞卻依靠資料。它說“北”,如果輸入的資料不變,那後面跟的就是”京“。
智慧相對論行業分析師顏璿曾經在《AI在閱讀理解領域開始“跑分”,這個“人類好幫手”還能去哪炫技》一文中總結了AI閱讀理解的技術層面,我們或許可以從中得到閱讀理解技術反哺AI同傳的方法。
AI閱讀理解技術的流程如下:Embedding Layer(相當於是人的詞彙級的閱讀知識)→Encoding Layer(相當於人通覽全文)→Matching Layer(相當於帶著問題讀段落)→Self-Matching Layer(相當於人再讀一遍進行驗證)→AnswerPointerLayer(相當於人綜合線索定位答題)。
綜合來看,閱讀更偏向的是 Multi-turn,即做完一次輸入輸出後,要把結果作為下輪輸入的一部分繼續輸出,系統在運作時需要考慮上下文。而翻譯,則是 Single-turn,一句話進一句話出。
合理利用後,機器翻譯即使現在是 Single-turn,將來也有可能是 Multi-turn;AI同傳現在沒用到上下文背景,將來也有可能結合上下文做到翻譯品質更佳。
如今,創作還是人工智慧正在摸索的領域,而一旦這個領域有了突破,將一些技術應用到AI同傳裡,我們或許可以達到翻譯的最高境界——”信、達、雅”。
在未來,AI不會擠佔人類同聲傳譯員的空間AI同傳會取代人類翻譯嗎?當然不會。先不說語言本身的複雜,我們可以來看看同傳的實際應用場景。
在實際工作中,不論是口譯還是直接對話都需要同傳來完成,不會有被服務方只聘用其中的一個職能。也就是說,AI同傳不僅要學會翻譯,還要學會聊天。而在這一塊兒,機器還有很大的進步空間。那麼,AI同傳的用處在哪裡呢?
AI共用同傳,僅針對普通人的市場
人們出國旅遊,常常會遇到語言溝通問題,然而,並不是每個人都配得起一個專業的口語翻譯。這時候,如果一個可穿戴設備亦或者一部手機就能為你同聲傳譯,想必會減少很多人的出國成本。隨身攜帶一位專屬的同聲傳譯,是不是覺得很酷呢?
智慧硬體一直是AI的狂熱地帶。就在去年,微軟和華為合作,在 Mate 10 手機中嵌入了微軟的神經網路機器翻譯,可以算得上是在終端運行神經網路機器翻譯的第一例。
如果AI同傳的硬體設備出世,更可能的商業模式是出租或者共用。即按需求進行租用,有一個專門的技術公司負責租賃,正如共用單車一樣,我們的使用費會降到極低。而這類AI的應用場景並不在複雜的會議現場,而是日常生活,出外旅遊等,語料庫的建設也會更加簡單。
如此,AI同傳只是更加惠民而已,卻不會取代在某個特殊場景比如金融會議、醫療會議等更加專業的人類同傳。
將AI同傳與硬體設備相結合,創造切實可用的語音介面,還可以在很大程度上提高使用者在移動終端、可穿戴、智慧家居、智慧汽車等智慧設備的體驗,真正在交互層面實現智慧時代的人機結合。
AI同傳成為同聲翻譯的考官同聲傳譯需求量成倍增加,但是合格的同聲傳譯的數量卻增長非常緩慢,據瞭解,現實市場上能夠十句話翻譯出十句的同傳譯員寥寥無幾。同時,擁有高級口譯資格證書的人並不一定能勝任同聲翻譯,同聲翻譯還需要進行專業的技能訓練,而有些合格的同聲翻譯人員也並不一定有口譯證書。
目前,我國還沒有一個固定的機構來負責同聲翻譯的相關事宜,也沒有一套統一的標準對同聲翻譯的工作進行考評。
面對這樣的困境,我們或許可以在AI同傳上開個腦洞。
人們可以利用AI數位化、標準化等特點,以資料庫為依託,將AI訓練成單一功能性的考核機器,針對不同的應用場景,對同聲傳譯員進行考核和評級,從而規範人才市場。
這裡或許可以參考駕駛培訓機器人。駕培機器人包含了高精度GPS導航技術、慣性技術和虛擬傳感技術、視頻檢測、資料處理、無線傳輸、指紋身份識別等高新技術,能夠精確記錄、判斷駕駛人操縱駕駛機動車的真實能力。
同理,AI同傳也可以在各種場景裡,去觀察、判斷考生的翻譯能力,以及考生對翻譯規則的熟悉、理解程度。這個系統可以減少考試員的勞動強度和人為因素,確保考試公平、公正,考核方法科學準確。
簡單來講,我們的目標是通過智慧型機器,使考核自動化,選撥或者是訓練真正的人才,而並非取代人類的翻譯能力。
更有意思的是,在考核過程中,AI又能不斷吸收新養分,增加口語類文本語料庫,何樂而不為呢?(本文首發鈦媒體)
【鈦媒體作者:智能相對論(微信id:aixdlun),文/顏璿】
更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App
如上圖所示,這個模型能夠通過你提供的可以明顯觀察的句子,推斷出一個人隱含的心情狀態(開心OR難過),並得到最後的行為判斷(宅、購物、社交),即通過已知推斷出未知。
而如何優化這個模型,得到最優隱含狀態?人們提出了許多解決問題的演算法, 包括前向演算法、Viterbi演算法和Baum-Welch演算法。此中奧妙,難以盡述。
但不能否認的是,在深度學習的基礎上,資料+模型就能很好地打造出一款AI同傳翻譯,資料越大,神經網路更好。即使翻譯結果不盡如人意,但只要建設足夠大的資料庫,建立更好的模型,打磨演算法,AI同傳很快就會有更大的提升。
NLP金字塔頂端反哺底端:打造高品質AI同傳除了增加資料庫和打磨資料模型,AI同傳還可以從哪些方面提升呢?我們不妨借鑒一下其它的技術。下圖中,這四個方面代表了人們在 NLP 領域的一些進步。用金字塔形來表示這四個技術之間的關係,難度是逐級上升的。
目前,聊天機器人和閱讀理解這一塊兒已經取得了很大的突破。而AI閱讀理解技術的進步不止是NLP的高階進化,還有一層意義是,科學之間是相通的,技術之間可以互相借鑒,金字塔頂端技術可以反哺底端。
在自然語言處理上,人區別於AI的點在於人有先驗知識。即人們在聽到某個字時,會自然地聯想到後一個字,或者會被一個詞觸發了一句話的聯想。比如,我們聽到“中”,既有可能想到“國”,也可能想到“間”。但是AI“聯想”的詞卻依靠資料。它說“北”,如果輸入的資料不變,那後面跟的就是”京“。
智慧相對論行業分析師顏璿曾經在《AI在閱讀理解領域開始“跑分”,這個“人類好幫手”還能去哪炫技》一文中總結了AI閱讀理解的技術層面,我們或許可以從中得到閱讀理解技術反哺AI同傳的方法。
AI閱讀理解技術的流程如下:Embedding Layer(相當於是人的詞彙級的閱讀知識)→Encoding Layer(相當於人通覽全文)→Matching Layer(相當於帶著問題讀段落)→Self-Matching Layer(相當於人再讀一遍進行驗證)→AnswerPointerLayer(相當於人綜合線索定位答題)。
綜合來看,閱讀更偏向的是 Multi-turn,即做完一次輸入輸出後,要把結果作為下輪輸入的一部分繼續輸出,系統在運作時需要考慮上下文。而翻譯,則是 Single-turn,一句話進一句話出。
合理利用後,機器翻譯即使現在是 Single-turn,將來也有可能是 Multi-turn;AI同傳現在沒用到上下文背景,將來也有可能結合上下文做到翻譯品質更佳。
如今,創作還是人工智慧正在摸索的領域,而一旦這個領域有了突破,將一些技術應用到AI同傳裡,我們或許可以達到翻譯的最高境界——”信、達、雅”。
在未來,AI不會擠佔人類同聲傳譯員的空間AI同傳會取代人類翻譯嗎?當然不會。先不說語言本身的複雜,我們可以來看看同傳的實際應用場景。
在實際工作中,不論是口譯還是直接對話都需要同傳來完成,不會有被服務方只聘用其中的一個職能。也就是說,AI同傳不僅要學會翻譯,還要學會聊天。而在這一塊兒,機器還有很大的進步空間。那麼,AI同傳的用處在哪裡呢?
AI共用同傳,僅針對普通人的市場
人們出國旅遊,常常會遇到語言溝通問題,然而,並不是每個人都配得起一個專業的口語翻譯。這時候,如果一個可穿戴設備亦或者一部手機就能為你同聲傳譯,想必會減少很多人的出國成本。隨身攜帶一位專屬的同聲傳譯,是不是覺得很酷呢?
智慧硬體一直是AI的狂熱地帶。就在去年,微軟和華為合作,在 Mate 10 手機中嵌入了微軟的神經網路機器翻譯,可以算得上是在終端運行神經網路機器翻譯的第一例。
如果AI同傳的硬體設備出世,更可能的商業模式是出租或者共用。即按需求進行租用,有一個專門的技術公司負責租賃,正如共用單車一樣,我們的使用費會降到極低。而這類AI的應用場景並不在複雜的會議現場,而是日常生活,出外旅遊等,語料庫的建設也會更加簡單。
如此,AI同傳只是更加惠民而已,卻不會取代在某個特殊場景比如金融會議、醫療會議等更加專業的人類同傳。
將AI同傳與硬體設備相結合,創造切實可用的語音介面,還可以在很大程度上提高使用者在移動終端、可穿戴、智慧家居、智慧汽車等智慧設備的體驗,真正在交互層面實現智慧時代的人機結合。
AI同傳成為同聲翻譯的考官同聲傳譯需求量成倍增加,但是合格的同聲傳譯的數量卻增長非常緩慢,據瞭解,現實市場上能夠十句話翻譯出十句的同傳譯員寥寥無幾。同時,擁有高級口譯資格證書的人並不一定能勝任同聲翻譯,同聲翻譯還需要進行專業的技能訓練,而有些合格的同聲翻譯人員也並不一定有口譯證書。
目前,我國還沒有一個固定的機構來負責同聲翻譯的相關事宜,也沒有一套統一的標準對同聲翻譯的工作進行考評。
面對這樣的困境,我們或許可以在AI同傳上開個腦洞。
人們可以利用AI數位化、標準化等特點,以資料庫為依託,將AI訓練成單一功能性的考核機器,針對不同的應用場景,對同聲傳譯員進行考核和評級,從而規範人才市場。
這裡或許可以參考駕駛培訓機器人。駕培機器人包含了高精度GPS導航技術、慣性技術和虛擬傳感技術、視頻檢測、資料處理、無線傳輸、指紋身份識別等高新技術,能夠精確記錄、判斷駕駛人操縱駕駛機動車的真實能力。
同理,AI同傳也可以在各種場景裡,去觀察、判斷考生的翻譯能力,以及考生對翻譯規則的熟悉、理解程度。這個系統可以減少考試員的勞動強度和人為因素,確保考試公平、公正,考核方法科學準確。
簡單來講,我們的目標是通過智慧型機器,使考核自動化,選撥或者是訓練真正的人才,而並非取代人類的翻譯能力。
更有意思的是,在考核過程中,AI又能不斷吸收新養分,增加口語類文本語料庫,何樂而不為呢?(本文首發鈦媒體)
【鈦媒體作者:智能相對論(微信id:aixdlun),文/顏璿】
更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App