穀歌發佈升級版Tacotron 2，打造從文本到人聲的完美轉換

（《麻省理工科技評論》中英文版APP現已上線，年度訂閱用戶每週直播科技英語講堂，還有科技英語學習社區哦~）

將文本轉換為自然語音（TTS）的技術已經研究了十幾年。過去幾年， TTS 已經取得了巨大進展，一個完整 TTS 的各個單獨子系統也都有很大改善。而穀歌通過結合 Tacotron 和 WaveNet 等過去研究工作的思路，其發佈的新產品 Tacotron 2 有了進一步提升。穀歌沒有使用複雜的語言和聲學功能作為輸入。相反，穀歌的產品用神經網路生成人聲，它僅僅是由語音示例和相應的文本訓練得到的。

在《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》這篇論文中，穀歌對新系統有全面的介紹。

簡而言之，它的工作原理是這樣的：穀歌用序列到序列（sequence-to-sequence）模型優化的 TTS，將字母序列映射為音訊編碼序列的功能。在一段 12.5 毫秒一幀的音頻頻譜圖中，系統不僅能捕捉單詞發音，還能獲取音量、語速、語調等很多細節。最終，這些特性將經由一個類似 WaveNet 的架構轉化為一段 24KHz 的波形。

論文地址：https://arxiv.org/abs/1712.05884

圖丨 Tacotron 2 模型架構詳解圖，圖片下半部分展示了序列對序列模型如何將字母序列映射成音訊譜，更多技術細節請參考論文。

使用者可以聽一下 Tacotron 2 的音訊樣本，這些樣本是穀歌最新 TTS 系統的成果。在一次評估中，穀歌邀請聽眾對生成語音的自然度進行評級，穀歌獲得了能夠與專業錄音媲美的評分。

雖然穀歌的樣本聽起來還不錯，但仍有一些棘手問題需要解決。

比如，系統在複雜單詞（比如“decorum”與“merlot”）的發音上有困難。極端情況下，它甚至會隨機產生奇怪的噪音。另外，系統還不能即時生成音訊。而且，穀歌還不能對生成的語音進行控制，比如讓它聽起來開心或憂傷。每個問題都是一個有趣的研究課題。