您的位置:首頁>科技>正文

穀歌發佈升級版Tacotron 2,打造從文本到人聲的完美轉換

(《麻省理工科技評論》中英文版APP現已上線, 年度訂閱用戶每週直播科技英語講堂, 還有科技英語學習社區哦~)

將文本轉換為自然語音(TTS)的技術已經研究了十幾年。 過去幾年, TTS 已經取得了巨大進展, 一個完整 TTS 的各個單獨子系統也都有很大改善。 而穀歌通過結合 Tacotron 和 WaveNet 等過去研究工作的思路, 其發佈的新產品 Tacotron 2 有了進一步提升。 穀歌沒有使用複雜的語言和聲學功能作為輸入。 相反, 穀歌的產品用神經網路生成人聲, 它僅僅是由語音示例和相應的文本訓練得到的。

在《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》這篇論文中, 穀歌對新系統有全面的介紹。

簡而言之, 它的工作原理是這樣的:穀歌用序列到序列(sequence-to-sequence)模型優化的 TTS, 將字母序列映射為音訊編碼序列的功能。 在一段 12.5 毫秒一幀的音頻頻譜圖中, 系統不僅能捕捉單詞發音, 還能獲取音量、語速、語調等很多細節。 最終, 這些特性將經由一個類似 WaveNet 的架構轉化為一段 24KHz 的波形。

論文地址:https://arxiv.org/abs/1712.05884

圖丨 Tacotron 2 模型架構詳解圖, 圖片下半部分展示了序列對序列模型如何將字母序列映射成音訊譜, 更多技術細節請參考論文。

使用者可以聽一下 Tacotron 2 的音訊樣本, 這些樣本是穀歌最新 TTS 系統的成果。 在一次評估中, 穀歌邀請聽眾對生成語音的自然度進行評級, 穀歌獲得了能夠與專業錄音媲美的評分。

雖然穀歌的樣本聽起來還不錯, 但仍有一些棘手問題需要解決。

比如, 系統在複雜單詞(比如“decorum”與“merlot”)的發音上有困難。 極端情況下, 它甚至會隨機產生奇怪的噪音。 另外, 系統還不能即時生成音訊。 而且, 穀歌還不能對生成的語音進行控制, 比如讓它聽起來開心或憂傷。 每個問題都是一個有趣的研究課題。

Next Article
喜欢就按个赞吧!!!
点击关闭提示