4月16日消息, 據Ars Technica報導, 谷歌研究人員開發出一種深度學習系統, 旨在説明電腦更好地識別和分離出嘈雜環境中的個體聲音。
正如谷歌本周在Google Research Blog上所稱,
谷歌表示, 這項技術可以應用與使用單一音軌的視頻, 並能在視頻演算法中隔離聲音, 這取決於誰在說話, 或者是讓用戶手動選擇他們想聽到的聲音的人臉。 穀歌稱, 這裡的視覺元件是關鍵, 因為當某人的嘴在動時, 這項技術會觀察到, 以便能在特定時刻更好地識別在某人的聲音, 並為視頻的長度創建更精確的個人語音軌跡。
這篇博客文章寫道,
穀歌特別指出, 封閉字幕系統是該系統的一個優勢, 但該公司表示, 它設想了“這一技術的廣泛應用”, 並且“目前正在探索將其納入各種穀歌產品的機會”。 Hangouts和YouTube似乎是兩個容易起步的地方。 當應用到智慧眼鏡(比如穀歌眼鏡、語音放大耳塞)中時,
幫助像穀歌Home這樣的智慧音箱識別個人聲音, 這似乎是另一個用例, 但是因為這個模型集中在視頻上, 它可能與配有顯示器的智慧音箱合作效果會更好, 比如亞馬遜的Echo Show。 今年早些時候, 穀歌為“智慧顯示裝置”(如Echo Show)集成了Google Assistant, 但該公司還沒有發佈自己的類似硬體產品。
在任何情況下, 這種技術的隱私後果似乎和潛在的用例同樣明顯。 在上面的例子中, 穀歌的聲音隔離遠遠不是安全無憂的, 進行更細微的調整後, 它可以讓強大的竊聽和監視工具落入壞人之手。
以上由網易企業郵箱經銷商(163hmail.com)湖南領先網路科技整理發佈。
網易企業郵箱, 是網易專為企業使用者定制的電子郵箱產品, 根植于中文郵箱第一品牌,