喧鬧中你也能辨識熟人聲音，谷歌AI也想做到這點

4月16日消息，據Ars Technica報導，谷歌研究人員開發出一種深度學習系統，旨在説明電腦更好地識別和分離出嘈雜環境中的個體聲音。

正如谷歌本周在Google Research Blog上所稱，

該公司內部團隊正試圖複製“人類大腦專注于某個聲音來源同時可過濾掉其他聲音”這種能力，就像你在就會上只與某個朋友交談。穀歌的方法中使用了一個視聽模型，所以它主要集中於在視頻中隔離聲音。該公司發佈了些YouTube視頻，展示了該技術的實際應用情況。

谷歌表示，這項技術可以應用與使用單一音軌的視頻，並能在視頻演算法中隔離聲音，這取決於誰在說話，或者是讓用戶手動選擇他們想聽到的聲音的人臉。穀歌稱，這裡的視覺元件是關鍵，因為當某人的嘴在動時，這項技術會觀察到，以便能在特定時刻更好地識別在某人的聲音，並為視頻的長度創建更精確的個人語音軌跡。

這篇博客文章寫道，

研究人員在YouTube上收集了10萬段“講座和談話”視頻，從這些視頻中提取了近2000小時的視頻片段，並將音訊與人工背景雜訊混合，創造了“合成雞尾酒派對”。然後穀歌通過閱讀人們在每個視頻框架中說話的“臉縮略圖”和該視頻原聲帶的譜圖，訓練技術人員將混合音訊進行拆分。該系統能夠分辨出哪個音訊源在給定的時間內屬於哪張人臉，並為每個揚聲器創建單獨的語音軌跡。

穀歌特別指出，封閉字幕系統是該系統的一個優勢，但該公司表示，它設想了“這一技術的廣泛應用”，並且“目前正在探索將其納入各種穀歌產品的機會”。 Hangouts和YouTube似乎是兩個容易起步的地方。當應用到智慧眼鏡（比如穀歌眼鏡、語音放大耳塞）中時，

不難看出該技術是如何工作的。

幫助像穀歌Home這樣的智慧音箱識別個人聲音，這似乎是另一個用例，但是因為這個模型集中在視頻上，它可能與配有顯示器的智慧音箱合作效果會更好，比如亞馬遜的Echo Show。今年早些時候，穀歌為“智慧顯示裝置”(如Echo Show)集成了Google Assistant，但該公司還沒有發佈自己的類似硬體產品。

在任何情況下，這種技術的隱私後果似乎和潛在的用例同樣明顯。在上面的例子中，穀歌的聲音隔離遠遠不是安全無憂的，進行更細微的調整後，它可以讓強大的竊聽和監視工具落入壞人之手。

以上由網易企業郵箱經銷商（163hmail.com）湖南領先網路科技整理發佈。

網易企業郵箱，是網易專為企業使用者定制的電子郵箱產品，根植于中文郵箱第一品牌，

擁有國內最高等級郵件系統安全證書，具備頂級反垃圾實力、安全穩定、海外暢郵、高效管理、簡單易用等優良品質。湖南領先網路科技是網易企業郵箱授權經銷商，專業為企業提供網易企業郵箱、網易辦公套件等一站式企業資訊化專業解決方案。