您的位置:首頁>科技>正文

喧鬧中你也能辨識熟人聲音,谷歌AI也想做到這點

4月16日消息, 據Ars Technica報導, 谷歌研究人員開發出一種深度學習系統, 旨在説明電腦更好地識別和分離出嘈雜環境中的個體聲音。

正如谷歌本周在Google Research Blog上所稱,

該公司內部團隊正試圖複製“人類大腦專注于某個聲音來源同時可過濾掉其他聲音”這種能力, 就像你在就會上只與某個朋友交談。 穀歌的方法中使用了一個視聽模型, 所以它主要集中於在視頻中隔離聲音。 該公司發佈了些YouTube視頻, 展示了該技術的實際應用情況。

谷歌表示, 這項技術可以應用與使用單一音軌的視頻, 並能在視頻演算法中隔離聲音, 這取決於誰在說話, 或者是讓用戶手動選擇他們想聽到的聲音的人臉。 穀歌稱, 這裡的視覺元件是關鍵, 因為當某人的嘴在動時, 這項技術會觀察到, 以便能在特定時刻更好地識別在某人的聲音, 並為視頻的長度創建更精確的個人語音軌跡。

這篇博客文章寫道,

研究人員在YouTube上收集了10萬段“講座和談話”視頻, 從這些視頻中提取了近2000小時的視頻片段, 並將音訊與人工背景雜訊混合, 創造了“合成雞尾酒派對”。 然後穀歌通過閱讀人們在每個視頻框架中說話的“臉縮略圖”和該視頻原聲帶的譜圖, 訓練技術人員將混合音訊進行拆分。 該系統能夠分辨出哪個音訊源在給定的時間內屬於哪張人臉, 並為每個揚聲器創建單獨的語音軌跡。

穀歌特別指出, 封閉字幕系統是該系統的一個優勢, 但該公司表示, 它設想了“這一技術的廣泛應用”, 並且“目前正在探索將其納入各種穀歌產品的機會”。 Hangouts和YouTube似乎是兩個容易起步的地方。 當應用到智慧眼鏡(比如穀歌眼鏡、語音放大耳塞)中時,

不難看出該技術是如何工作的。

幫助像穀歌Home這樣的智慧音箱識別個人聲音, 這似乎是另一個用例, 但是因為這個模型集中在視頻上, 它可能與配有顯示器的智慧音箱合作效果會更好, 比如亞馬遜的Echo Show。 今年早些時候, 穀歌為“智慧顯示裝置”(如Echo Show)集成了Google Assistant, 但該公司還沒有發佈自己的類似硬體產品。

在任何情況下, 這種技術的隱私後果似乎和潛在的用例同樣明顯。 在上面的例子中, 穀歌的聲音隔離遠遠不是安全無憂的, 進行更細微的調整後, 它可以讓強大的竊聽和監視工具落入壞人之手。

以上由網易企業郵箱經銷商(163hmail.com)湖南領先網路科技整理發佈。

網易企業郵箱, 是網易專為企業使用者定制的電子郵箱產品, 根植于中文郵箱第一品牌,

擁有國內最高等級郵件系統安全證書, 具備頂級反垃圾實力、安全穩定、海外暢郵、高效管理、簡單易用等優良品質。 湖南領先網路科技是網易企業郵箱授權經銷商, 專業為企業提供網易企業郵箱、網易辦公套件等一站式企業資訊化專業解決方案。

Next Article
喜欢就按个赞吧!!!
点击关闭提示