您的位置:首頁>正文

谷歌再出黑科技!人工智慧類比的人聲和真人幾乎難以分辨

穀歌再出黑科技

用人工智慧模擬出來的聲音

幾乎可以和真人以假亂真

在我們的印象中, 機器的聲音都是冰冷的電子音,

雖然人類也一直致力於研究讓機器“說人話”, 但搞出來的成果似乎還是跟人類真實的聲音差距很大, 生硬、不自然一直是通病。

在這方面, 穀歌倒是一直不遺餘力的在研究, 所謂只要功夫深, 鐵杵磨成針。 前段時間, 他們終於宣佈, 讓機器說人話這事兒, 有進展了!!!

穀歌最近發佈了一個利用神經網路合成語音的模型, 它可能會讓電腦發出的聲音變得更有“人味兒”。

根據dailymail報導, 穀歌最近展示了一種新的語音系統, 可以讓語音助手的聲音聽起來更加自然, 更加像真人的聲音。

(圖片來自dailymail)

這個名為Tacotron 2的機器人,

是通過真實的人類對話案例和文本記錄訓練出來的, 據說這樣可以讓它的交流顯得更加自然。

日前, 這套機器人系統演示了一下如何順利的朗讀不同文本, 甚至連Peter Piper的繞口令都讀了!!!

嗯......只是被一些比較困難的文字絆住了, 不過也可以理解啦, 畢竟人類自己讀繞口令還嘴瓢呢。

不信你試試

——

Peter Piper picked a peck of pickled peppers.

Did Peter Piper pick a peck of pickled peppers?

If Peter Piper picked a peck of pickled peppers,

where's the peck of pickled peppers Peter Piper picked?

(圖片來自Tom's Hardware)

在一篇新的博客文章中, 穀歌的研究人員解釋說, 最新的文字轉語音系統(TTS)可以把從培訓中學到的內容用自己的話說出來。

與普通的TTS系統相反, Tacotron 2不使用複雜的語言和聲學特性作為輸入, 用語音示例和相應的文本記錄進行訓練, 使系統從文本生成更顯自然的人類聲音。

(圖片來自TechCrunch)

關於Tacotron 2, 穀歌這次綜合了以前研發的Tacotron和WaveNet的思路, 並且增加了更多的改進。

這裡簡單說一下Tacotron和WaveNet——

Tacotron是今年3月Google 提出的一種新的端到端的語音合成系統。 該系統可以接收字元輸入並輸出相應的原始頻譜圖, 然後將其提供給 Griffin-Lim 重建演算法直接生成語音。

WaveNet 則是由Deepmind在一年前提出的生成原始音訊波形的深層神經網路模型, 已正式商用於Google Assistant中。 今年10月, Deepmind發表博客稱, 該模型比起一年前的原始模型效率提高1000倍, 且能比目前的方案更好地類比自然語音。

研發團隊對Tacotron 2的表現也充滿信心,很多聽眾都表示它的效果都可以拿來跟專業錄音媲美了。

研究人員對此解釋說,Tacotron 2的工作原理是使用序列-序列模型來映射序列字母到編碼音訊的功能,這其中還結合了發音、音量、速度和語調,所以它可以捕捉到人類發音的各種微妙之處。

小編倒是覺得,講話語調的變化真的很重要。

比如wo cao 這個詞

wō cāo 表輕蔑

wǒ cáo 表疑問

wǒ vào 表憤怒

wò cào 表驚歎

同理可用於fuck一詞。

最後,這些特徵被轉換成24 kHz的波形。

雖然Tacotron 2在聽眾的評分中表現還不錯,但研發團隊也表示——

它還並不是很完美。

“儘管我們的樣本聽起來不錯,但還是有一些棘手的問題需要解決。例如,Tacotron 2系統在複雜詞語(比如“decorum”和“merlot”)方面還是有些困難,在極端的情況下甚至會隨機產生些奇奇怪怪的噪音。”研究人員說。

另外有點遺憾的是,Tacotron 2系統還不能即時生成音訊。

以及,雖然可以比較流暢的生成自然人聲,但他們還不能控制系統所產生的音訊,比如引導它這段音訊的感情是高興還是悲傷。

畢竟用喪氣的語調讀一段婚禮致辭場面還是略顯尷尬的。

穀歌的研究人員對這些問題還是很樂觀的——“這些問題,每個都是有趣的研究問題啊”(可以說是很熱愛學習和研究的一群人了)。

Tacotron 2建立在WaveNet的一些想法的基礎上,WaveNet能夠通過分析來自人聲的聲波來創造自然的合成語音,而不是專注於人類語言。

去年,DeepMind的研究人員聲稱,這個開創性的專案已經把電腦系統和人類語音之間的品質差距減半了。

最新的Tacotron 2系統旨在進一步進行文本到語音的轉換,以獲得更自然的電腦生成的語音。

根據報導,Tacotron 2 模型平均意見得分為 4.53(滿分5),專業錄音平均意見得分為 4.58。

看來大多數使用者對這套新的文字轉語音系統還是十分滿意的,感興趣的同學可以點擊閱讀原文連結,在網站上品品Tacotron 2 的發音夠不夠純正。

研發團隊對Tacotron 2的表現也充滿信心,很多聽眾都表示它的效果都可以拿來跟專業錄音媲美了。

研究人員對此解釋說,Tacotron 2的工作原理是使用序列-序列模型來映射序列字母到編碼音訊的功能,這其中還結合了發音、音量、速度和語調,所以它可以捕捉到人類發音的各種微妙之處。

小編倒是覺得,講話語調的變化真的很重要。

比如wo cao 這個詞

wō cāo 表輕蔑

wǒ cáo 表疑問

wǒ vào 表憤怒

wò cào 表驚歎

同理可用於fuck一詞。

最後,這些特徵被轉換成24 kHz的波形。

雖然Tacotron 2在聽眾的評分中表現還不錯,但研發團隊也表示——

它還並不是很完美。

“儘管我們的樣本聽起來不錯,但還是有一些棘手的問題需要解決。例如,Tacotron 2系統在複雜詞語(比如“decorum”和“merlot”)方面還是有些困難,在極端的情況下甚至會隨機產生些奇奇怪怪的噪音。”研究人員說。

另外有點遺憾的是,Tacotron 2系統還不能即時生成音訊。

以及,雖然可以比較流暢的生成自然人聲,但他們還不能控制系統所產生的音訊,比如引導它這段音訊的感情是高興還是悲傷。

畢竟用喪氣的語調讀一段婚禮致辭場面還是略顯尷尬的。

穀歌的研究人員對這些問題還是很樂觀的——“這些問題,每個都是有趣的研究問題啊”(可以說是很熱愛學習和研究的一群人了)。

Tacotron 2建立在WaveNet的一些想法的基礎上,WaveNet能夠通過分析來自人聲的聲波來創造自然的合成語音,而不是專注於人類語言。

去年,DeepMind的研究人員聲稱,這個開創性的專案已經把電腦系統和人類語音之間的品質差距減半了。

最新的Tacotron 2系統旨在進一步進行文本到語音的轉換,以獲得更自然的電腦生成的語音。

根據報導,Tacotron 2 模型平均意見得分為 4.53(滿分5),專業錄音平均意見得分為 4.58。

看來大多數使用者對這套新的文字轉語音系統還是十分滿意的,感興趣的同學可以點擊閱讀原文連結,在網站上品品Tacotron 2 的發音夠不夠純正。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示