分離人聲問題的攻破，將會為語音辨識領域帶來哪些可能性？

試想一下，在一個嘈雜的雞尾酒會上，同時存在著許多不同的聲源：多個人同時說話的聲音、餐具的碰撞聲、音樂聲等等。如何在酒會上分辨出特定人物的聲音，

這對於我們人類來說十分簡單。

但對於電腦來說，要把一個音訊信號分割成多個不同的語音來源，依然有許多棘手的問題需要解決。當許多人的語音交疊在一起的時候， AI時常措手不及。 1953年Cherry提出“雞尾酒會”問題至今，仍然沒有人能夠解決機器深度學習識別分離人聲的問題。

但是，近日在Google Research軟體工程師Inbar Mosseri和Oran Lang發表的論文《Looking to Listen at the CocktailParty》中，採用了一個全新的視聽模型為“雞尾酒會”問題提供了一個合適的解決之道。

音訊-視覺語音分離模型，解決“雞尾酒會效應”

為了解決“雞尾酒會”問題，穀歌從YouTube上搜尋了10萬個高品質講座和演講視頻生成訓練樣本，通過約2000 個小時的視頻片段分析，訓練出基於多流卷積神經網路（CNN）的模型，

將合成雞尾酒會片段分割成視頻中每個說話者的單獨音訊流。

該試驗中，輸入是一名或多名發聲物件，同時被其他物件或嘈雜背景所干擾的視頻。輸出的是將輸入視頻的音軌分解成純淨的音軌，並對應上相應的說話者。

所謂的音訊-視覺語音分離模型，就是加強選中人的語音，同時減弱同一時間其他人的音量。該方法適用于具有單一（主）音軌的常見視頻，使用者也可以自行選擇傾聽物件來生成對其的單一音軌，或者基於語境由演算法進行對特定發聲物件進行選擇。

而在模型訓練過程中，網路系統（分別）學習了視覺和音訊信號的編碼，然後將它們融合在一起形成一個音訊-視覺表現。通過這種表現，

網路系統可以學會為每位元發聲物件對應輸出時頻遮罩。輸出的時頻遮罩與雜訊輸入頻譜圖相乘，隨後轉換成時域波形，從而形成每一位說話者單獨純淨的音訊信號。

基於神經網路模型架構

此外，在多人發聲的場景下，視覺信號除了有效提升語音分離的品質，

還可以把分離之後的音軌和視頻裡的人物對應起來。此種方式為其後的語音辨識領域提供了許多的可能性。

解決“雞尾酒會效應”這一難題意味著什麼？

“雞尾酒會效應”難題的解決為語音辨識領域的許多問題提供了思考路徑，同時視覺-音訊網路識別系統的提出，也為人聲分離提供了視覺+聽覺的解決方式。

隨著技術落地，當人聲分離技術真正應用於市場中會對產品有哪些改變呢？智慧相對論分析師柯鳴認為，其在以下四個方面會有較大突破。

一、助力CC（隱藏式字幕）發展

隱藏字幕（Closed Captioning）是電視節目和電影中為有特殊情況或者需要的觀眾準備的字幕，其可以起到用解釋性語言描述畫面的作用。

Caption 這個詞，

有輔助聽力障礙的人士用意。 Caption一般還包含了效果音的提示，這些聲音正常人可以分辨，而對於障礙人士則必須通過字幕。

比如美國的「流言終結者」節目，除了可以看到「TV PG」分級標籤以外，也顯示了 CC 標誌表明節目提供隱藏式字幕，以此來服務那些需要特殊説明的群體。

《流言終結者》

同樣，穀歌人聲分離技術對於促進CC發展有較大前景。多通道系統中對於特定人聲的分離能夠簡化節目、電影製作流程，其在語音辨識的預處理，以及視頻字幕方面能產生良好效果。

對於視頻自動字幕載入系統而言，多名發生者同時發聲導致的語音重疊現象是一項已知的挑戰，與此同時，將音訊分離至不同的源也有助於呈現更加準確和易讀的字幕。人聲分離技術可以在語音原聲的基礎上直譯出各個對話主題的聲音，並將其分開，利用AI實現字幕自動化，這極大程度上保證了字幕的同步性與準確性。

二、降低AI同傳“烏龍率”

在2018年博鼇論壇上，騰訊AI同傳搞了一個大烏龍。除了翻譯不準確的問題意外，現場還被曝光翻譯系統崩潰“抽風”，出現亂碼的情況，讓現場相當尷尬。

事後，騰訊指出：出現此種烏龍的原因在於中英雙語切換頻率的問題。當聲源在兩種語言之間不斷轉換時，後臺中、英文識別引擎就會同時開始工作，這會導致兩種識別引擎互相“掐架”，語音辨識混亂。最終翻譯結果只能選擇一種語言進行輸出，導致引發錯誤。

而人聲分離技術的應用，似乎為AI同傳中的人聲識別提供了一個有效的解決途徑。對於多種語言的識別流暢化後，AI同傳的品質也相應會得到一定的提高。

三、或可為智慧音響提供“保險箱”

智慧音箱的問世，使得普通家庭進入了語音互動的時代，其使用的簡易性甚至超過了智慧手機。有業者認為，智慧音箱將會取代智慧手機，成為家庭自動化或者智慧家居生活的入口，自然語言對話將成為主流和高效率的使用者介面。

與此同時，智慧音響在應用過程中，也面臨著諸多挑戰，其主要體現在語音辨識技術、聲紋識別等諸種技術上。目前，智慧音箱的技術難題在於語音辨識技術如何在嘈雜的環境中識別語音指令——包括酒吧和體育場等人聲鼎沸的場景。

為此，微軟在Xbox上部署了一款名為Voice Studio的應用，專門收集人們在玩遊戲或看電影時的對話資訊。為了吸引使用者貢獻自己在玩遊戲過程中的對話內容，該公司為參與其中的用戶提供了各種各樣的獎勵，包括點卡和遊戲道具。

但是，效果並不盡如人意。如何在嘈雜環境識別人聲、如何分別多人聲音依然是智慧音箱的難題。日後，隨著智慧家居的普及，智慧音響成為了物聯網環境下與其他家居溝通的“鑰匙”，而AI人聲分離技術的應用，攻克技術問題的同時也為智慧音響提供了一個安全性較強的“保險箱”。

四、為無人駕駛提供仿生啟示

“雞尾酒會效應”在動物界的應用為無人駕駛提供一定啟示。以蝙蝠躲避障礙和捕食為例，其在飛行過程中會發射一系列超聲波，超聲波遇到障礙後反射回來，蝙蝠通過感知反射信號到達兩耳的時間差來判斷障礙物的方向，通過感知反射信號的強度來判斷障礙物的距離。

蝙蝠發出的超聲信號一般是在110kHz的一個掃頻信號，通過感知不同頻率信號的衰減程度，就可以辨別障礙物的材質，進而可以判斷障礙物是否為捕食物件。

蝙蝠是如何區分自己和他人發出的超聲波信號的呢？科學家通過研究發現，蝙蝠並沒有改變發出的超聲頻率，而是通過叫聲變大，持續時間變長，發射頻率增多等方式來解決的。

動物界的“雞尾酒會效應”啟示無人駕駛：想提高雷達的定位精度，提高信噪比是根本。比如，蝙蝠叫聲變大，相當於提高了信號的能量；而叫聲持續時間變長和叫聲頻率增多，則是增加了信號的樣本點數。在雜訊不相關的情況下，經過簡單的平均就可以降低雜訊的影響。

這一點，將會為機器人和無人駕駛汽車帶來了新的啟發。

無人駕駛的雷射雷達探測

此外，視覺-音訊語音辨識分離模型應用于無人駕駛領域能大程度提高雷達、鐳射等距離感測器測量出路面資訊的性能，而這正是無人駕駛安全保障的基礎。

隨著日後無人駕駛的普及，人聲分離模式或可衍生出“雷聲分離”，將雷達誤收風險降到最低，從而保證無人駕駛障礙識別方面的安全性。

誠然，新技術的應用需要一段時間。穀歌官方目前也表示：“正在探索使用這個技術到穀歌系列產品中去”。隨著“雞尾酒會”難題的解決，AI語音辨識將會有長足進展。具體投入產品後表現怎樣，還需要市場來檢驗。（本文首發鈦媒體）

【鈦媒體作者：智能相對論（微信id:aixdlun），文/柯鳴】

更多精彩內容，關注鈦媒體微信號（ID：taimeiti），或者下載鈦媒體App