看懂黑科技丨世界首部人工智慧配音紀錄片《創新中國》誕生

聚焦資訊技術領域為產業發聲

導讀

1月18日，紀錄片《創新中國》在北京舉辦首映式，片中涉及了大量最新科研成就，比如光量子電腦、中國空間站計畫、智慧製造等，讓人驚歎我國進來的科學成就。內容吸引人，配音更是一大亮點。這部紀錄片是我國，也是世界首部採用人工智慧技術配音的紀錄片。片中使用了合成的央視播音員李易的聲音，為我們展示了語音合成中重要的組成——個性特徵的語音合成技術。

首先，我們先簡短介紹下李易。李易是央視著名播音員， 2013年因病去世，曾為《再說長江》、《大明宮》、《美麗中國》、《人類星球》、《遷徙的鳥》等多部紀錄片及影視作品配音，那句熟悉的“這裡是中央電視臺電XX頻道”，就是李易的聲音。《創新中國》中還原“配音大師”李易的聲音，不僅讓我們重溫了經典之聲，還讓一項技術——個性化語音合成，走到了更多人視野裡。

個性化語音合成技術的基礎是語音合成技術，

語音合成技術是讓計算機具有“說”的能力，目前語音合成系統產品已經有了廣泛的應用, 在清晰度、自然度方面都已經基本能讓使用者接受。但隨著粉絲經濟和影視行業等領域的發展，使用者更期望電腦可以按照多種不同風格、不同個性特徵來說話，這就是個性化語音合成技術要解決的問題。

個性語音合成技術——讓機器發出那個人的聲音

個性化語音合成技術是建立在語音合成和語音辨識技術的基礎上的 , 是人機交互中重要的組成部分 , 是對語音合成技術的豐富與延拓。個性化語音合成可以讓電腦發出的語音增加個性 , 從而使語音合成具有更多的表現力。

個性化語音合成技術可以通過對不同說話人語音特徵的分析 , 建立說話人的語音參數 , 通過參數控制現有的語音合成系統 , 從而實現個性化語音的合成。簡單來說就是讓機器發出你想要聽到的人的聲音。它是一門交叉型學科，涉及到通訊、電腦、人工智慧、語音學、語言學、信號處理等技術。

個性語音合成技術——特徵提取與還原特徵的過程

個性特徵語音合成技術可以分為四個階段進行：一是語音採集階段、二是語音分析和特徵提取階段、三是特徵修改和轉換階段、四是個性特徵合成階段。

■ 在語音採集階段，需要在安靜的室內環境下錄製特徵人的語音、建立音庫，並將原始語音進行音素切分、濾波增強、儲存處理等。

■ 語音分析和特徵提取階段，需要提取特徵參數、建立說話人特徵模型。

■ 在特徵修改和轉換階段，如果轉化文字，首先需要提取已建好的模型，找出每個字對應的拼音波形，然後組成完整的話。如果轉化語音，還需要把語音轉化為文字，再進行以上操作。

■ 在個性特徵語音合成類比階段，需根據原聲韻律、說話頻次等特點進行調整與完善，然後生成個性語音檔。

個性語音合成技術——更高級的變音器

個性語音合成技術的應用範圍十分廣泛，可以應用在娛樂、影視、導航、數碼、醫學、語音偽裝等領域。

應用個性語音合成技術，可以達到用特定人的聲音來朗讀各類文字，在聽書、導航等領域可以得到很大的應用。在聊天或是唱歌的情況下，人們會用到變聲器，而使用了個性語音合成技術的變聲器，可以讓人發出某位特定人的聲音，這在娛樂領域的前景是十分廣泛的。

在影視配音中，往往需要大量的配音演員 , 而且配音演員與原演員的說話特徵可能會有很大的差距。為準確反映演員的個性特徵 , 可以將配音演員的聲音中加入原來演員的一些聲音的個性特徵參數 , 這樣就可以使電影配音效果更加理想。在動畫片和紀錄片中，個性語音合成技術也可以得到更多地利用。

在醫學領域，通過個性化語音合成技術, 可幫助聾啞人說話 , 也可提高聲道受損的人的語音可懂度。如喉切除手術後的病人，主要利用氣管、食管進行發音，所發出的語音噪音成分大，清晰度低。採用聲源取代等技術可以大幅度地提高語音的清晰度 , 並恢復說話人的個性特徵。

在較為特殊的語音偽裝領域，語音發送方將表徵個性特徵的語音參數去除, 在接收端進行根據個性特徵模型合成出原來的語音。如果在傳輸過程中被偵聽 , 則聽到的是另外一個說話人的聲音 , 達到說話人偽用。

目前，在語音辨識、語音合成方面的技術已經較為完善，科大訊飛、穀歌等公司在這方面已經做出了很多的研究。但是由於聲音特徵計算難度大、模型提取複雜等因素，個性語音合成技術的研究成果和產品還很少，發展空間還有很大。之前百度在其世界大會中復原過張國榮的聲音，在一些娛樂明星的演唱會中，這項技術也露出過“尖尖角”，但都比較簡短。這次在《創新中國》中，大段還原了李易的聲音，可謂是國內個性化語音合成技術的一大飛躍。在未來，個性化語音合成技術能夠應用於數碼產品中後，可能也會像如今的全面屏、屏下指紋解鎖等概念一樣，成為一個很大的賣點。

聲明：

部分圖片及視頻來源於網路

黃河連線系太原九州連線文化傳媒有限公司旗下品牌

本平臺法律顧問為山西晉商律師事務所

黃河連線原創文章，轉載請注明出處

可以達到用特定人的聲音來朗讀各類文字，在聽書、導航等領域可以得到很大的應用。在聊天或是唱歌的情況下，人們會用到變聲器，而使用了個性語音合成技術的變聲器，可以讓人發出某位特定人的聲音，這在娛樂領域的前景是十分廣泛的。

聲明：

部分圖片及視頻來源於網路

黃河連線系太原九州連線文化傳媒有限公司旗下品牌

本平臺法律顧問為山西晉商律師事務所

黃河連線原創文章，轉載請注明出處