建立客觀的音樂評價體系讓機器聽懂人類歌聲

原標題：機器能聽懂人類歌聲嗎

音樂類競技節目層出不窮，臺上你方唱罷我登場，台下專業評審和現場觀眾熱情高漲：這句唱得好，加分！那句跑調了，減分！歌手唱哭了，滿分！此時，如果有一個毫無感情色彩的評審來打分，會不會更好？

最近的央視歌唱節目《渴望現場》中，上線了一位機器人評審“小渴”。它由中科院自動化研究所研製，來自不同行業的音樂愛好者先走進“歌詠亭”，用歌聲去征服它，得到“小渴”垂青的選手才有機會走出“歌詠亭”和觀眾見面。機器能成為人的“知音”、聽懂人類歌聲嗎？

對音樂進行量化評價

唱完歌讓機器打個分，聽起來是玩剩下的東西啊：KTV裡一頓嚎，系統都會多少給出一個分數，有時還附贈歡呼聲。

“我們這個可不一樣， ” 中科院自動化研究所研究員王金橋連忙擺手， “傳統的歌曲評價軟體一般只是簡單地把演唱者的歌唱節奏和伴奏曲節奏做匹配對比，來進行評價，說白了就是看你有沒有跑調。 ”

相比之下， “小渴”複雜多了。 “它是第一次從音準、音域、調性、節奏、語感、樂感六個維度對演唱進行客觀評斷，用科技評價文藝。 ”王金橋說。據他介紹，這六個指標是和音樂學院教授討論很多次的結果，兼顧了音樂欣賞的維度和量化的難度。

“在這六個指標中，前四個偏客觀，訓練資料足夠多的情況下會比人的評價效果更好。

在具體的打分過程中，機器是聽一句給一句的分數，專家可能偶爾走神沒聽見，但機器不存在這種情況。 ”王金橋說。

理解音樂的本質最難

對於人工智慧來說， “理解音樂的本質”更加困難，這要通過海量資料的訓練來實現。

雖然不同歌手存在演唱者能力、曲風等方面的差異，但當海量音樂專家的評分資料匯總在一起時，就能基本代表當前主流的音樂評審專家對音樂的評價。 “基於人工智慧技術的智慧音樂評判系統就是針對這些海量資料進行分析，通過大資料建模，抽象出音樂藝術的共性，進而建立起客觀的音樂評價體系，從而讓‘小渴’對音樂做出較為客觀的理解和科學的評判。 ”王金橋介紹說。

他舉了“小渴”評價“音準”的例子：從聽眾角度來說，

現階段對音準的判斷更多依賴於聽覺的長期專業訓練，難以精確地量化。而卷積神經網路所抽取的多維語音特徵具有精確量化的特徵，能在很高的精度上對音準資訊進行量化。在此基礎上，再配合專家對歌聲音準的經驗打分作為監督資訊，神經網路模型就能對音準資訊建立準確的數學表達模型，從而進行量化的音準打分。

而聽起來最縹緲的“樂感”，也有特定的數學模型支撐。 “音樂作為一種藝術，需要傳達某種情感，樂感就是人們瞭解這種感覺的感官能力。表現力是歌手演唱過程中的綜合表現，目前的評判標準更多是依賴于音樂專家的權威判別。 ”王金橋介紹說。他解釋了“小渴”理解“表現力”的過程：“我們同樣採樣回歸模型來類比專家對該音樂表現力的評判標準。

具體來說，專家對表現力量化為1到10十個分數進行評判，我們通過卷積網路、雙向長短期記憶模型，提取音樂表現力特徵，該特徵能對音樂在時間維度上的表現力進行充分分析，進而使得該模型能夠對音樂建立特定的數學模型。 ”

海量資料是客觀評判的基礎

在學習階段，團隊給“小渴”喂了十幾萬首歌、擴增後也就是幾百萬個資料，在海量的評分資料的基礎上， “小渴”才有更加科學和客觀的可能。 “我們找了很多音樂學院的教授給歌曲打分，發現在前四項指標上，因為指標客觀所以教授的打分也很統一。但在語感和樂感這兩個主觀性更強的指標上，

教授們打分的方差也很大。但是‘小渴’能大量聽大量學習，有‘見多識廣’的優勢。 ”王金橋解釋道。

到了實戰現場， “現場評審聽的是合成出來的聲音， ‘小渴’連接的則是歌手的純人聲，任何瑕疵都能被它捕捉。 ”王金橋說。

目前節目已經播出了兩期， “評委和選手都認為結果很客觀公平，把‘小渴’稱作‘史上最冷靜的評審’。 ”對於“小渴”的表現，王金橋很滿意。 “我們提出人工智慧音樂評價系統的目的是讓電腦更加有效地理解音樂。通過收集海量音樂專家的評分資料，嘗試通過人工智慧演算法建立一種客觀的音樂評價體系，建立起一座溝通音樂藝術與機器計算之間的橋樑。 ”王金橋說。

但也有觀眾表示， “小渴”更偏心和它頻率接近的音訊，對傳統戲劇也“不大靈光”。看來音樂的大千世界紛繁複雜，“小渴”還得繼續摸索。

好消息是，通過節目錄製，“小渴”能採集到更多的聲音案例，這會為下一步的研發儲備資料。假以時日，沒準兒它會從“最冷靜”進化成“最厲害”的評審呢。

(責編：實習生18、張希)

對傳統戲劇也“不大靈光”。看來音樂的大千世界紛繁複雜，“小渴”還得繼續摸索。

(責編：實習生18、張希)

建立客觀的音樂評價體系 讓機器聽懂人類歌聲

建立客觀的音樂評價體系讓機器聽懂人類歌聲