麻省理工科技評論：在語音合成領域百度已超越穀歌

巨頭逐鹿人工智慧,推動深度學習技術在實際應用領域屢破瓶頸。近日,全球知名科技評論媒體《麻省理工科技評論》發文介紹深度學習技術在語音領域獲得的重大突破,百度深度語音技術可大大減少人類幕後精調的工作量。 MIT表示,百度人工智慧的深度語音合成技術已經超越穀歌,並在亞馬遜的Mechanical Turk測試中,獲得了比“即時”還快的速度成績。

百度作為中國人工智慧領域的先行者,在人工智慧方面投入巨大。早在2013年便率先成立深度學習研究院(IDL),深耕深度學習技術領域,與IBM、穀歌、微軟一同位列深度學習研究的第一陣營。

現在百度已在語音技術方面取得眾多進展,百度大腦語音合成日請求量2.5億,語音辨識準確率達97%,百度語音技術入選MIT科技評論雜誌評出的“2016年全球十大突破技術”。

麻省理工科技評論在文中介紹了近期百度在語言合成方面的成果:百度研發的深度語音文本閱讀系統,可極大程度上減少幕後精調的工作量,讓機器只需幾小時就能學會“說話”,完全無需人類干預。

比如導航、語音鬧鐘、手機接聽系統等應用,都需要用到文本轉語音系統,而這一功能的實現都需要記錄某個人的大量語音資料才能生成新句子。一旦說話人有所改變,或者單詞重音發生變化,就需要重新錄音,生成新資料庫,直接增加了幕後精調的工作量,提高人工干預成本。

百度運用深度學習技術將文本分割為最小單位,生成被稱之為“現象(phenomes)”的聲音片段,隨後,再運用語音合成網路重新生成這些聲音。這種方法的不同之處在於,深度學習可以自己完成訓練過程,基本不需要人工進行微調。而百度這一技術已經遠遠領先與穀歌DeepMind去年推出的WaveNet——在培訓階段仍然需要微調,而且需要大量的計算資源,難以在真實情境中得到應用。

文章通過單詞“Hello”來介紹百度深度語音合成技術是如何實現的。百度系統會將“Hello”分割為以下“現象”:(無聲, HH)、 (HH, EH)、 (EH, L)、 (L, OW)、 (OW, 無聲)。然後再將這些輸入到語音合成系統來說出單詞。未來百度將在控制重音、持續時間和自然聲音頻率方面加深研究,以實現改變輸出的語音和詞語中所傳達的情感的功能。

然而這一系統的實現需要大量的計算資源。真實語音的采碼率為48赫茲,因此電腦生成樣本的時間只有20微秒。但是語音合成過程涉及多個層面,每個層面都要保證在1.5微秒中完成工作,才能跟上生成速度。對此百度研究員對MIT表示:“要執行即時對接,我們必須保證不能重複計算任何結果,將整個處理模型存儲在緩存之中(不是主記憶體),然後優化利用可用的計算單元。 ”

據悉,百度深度語言合成系統在亞馬遜的Mechanical Turk上進行了眾包理解測試。測試內容包括讓多個試用人員將生成音訊與真人原聲錄音做對比,然後對音訊品質進行打分。結果顯示,通過百度深度學習技術生成的音訊品質很高。

百度表示,百度深度語音合成達到了比即時還快的速度,不僅能夠即時生成音訊,從而可以廣泛應用於直播中。

在該系統的通用性上,百度研究團隊表示,可以通過重新培訓學習全新的資料集,而這一過程無需人工介入,將大大簡化文本轉語音系統的處理流程。

面對以百度為代表的中國人工智慧軍團在深度學習方面的迅猛態勢,MIT也表示希望穀歌DeepMind(或者其他深度學習系統),可以改變無所事事、閑坐久等的狀態,並預見在巨頭的推動下,未來深度學習領域將迎來“百家爭鳴”局面。