(《麻省理工科技評論》中英文版APP現已上線, 年度訂閱用戶每週直播科技英語講堂, 還有科技英語學習社區哦~)
將文本轉換為自然語音(TTS)的技術已經研究了十幾年。 過去幾年, TTS 已經取得了巨大進展, 一個完整 TTS 的各個單獨子系統也都有很大改善。 而穀歌通過結合 Tacotron 和 WaveNet 等過去研究工作的思路, 其發佈的新產品 Tacotron 2 有了進一步提升。 穀歌沒有使用複雜的語言和聲學功能作為輸入。 相反, 穀歌的產品用神經網路生成人聲, 它僅僅是由語音示例和相應的文本訓練得到的。
在《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》這篇論文中, 穀歌對新系統有全面的介紹。
論文地址:https://arxiv.org/abs/1712.05884
圖丨 Tacotron 2 模型架構詳解圖, 圖片下半部分展示了序列對序列模型如何將字母序列映射成音訊譜, 更多技術細節請參考論文。
使用者可以聽一下 Tacotron 2 的音訊樣本, 這些樣本是穀歌最新 TTS 系統的成果。 在一次評估中, 穀歌邀請聽眾對生成語音的自然度進行評級, 穀歌獲得了能夠與專業錄音媲美的評分。
雖然穀歌的樣本聽起來還不錯, 但仍有一些棘手問題需要解決。