華文網

GMIS 2017大會俞棟演講:語音辨識領域的四項前沿研究

全球機器智慧峰會( GMIS 2017 ),是全球人工智慧產業資訊服務平臺機器之心舉辦的首屆大會,邀請來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個Session、32 場演講、4 場圓桌論壇、1 場人機大戰,

兼顧學界與產業、科技巨頭與創業公司,以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智慧盛宴。

5 月 27 日,由機器之心主辦、為期兩天的全球機器智慧峰會(GMIS 2017)在北京 898 創新空間順利開幕。中國科學院自動化研究所複雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭,

他表示:「如今人工智慧非常熱,有人說再過幾年人類甚至不如鞋底聰明,50% 甚至 70%工作被人工智慧取代。」王飛躍對此表示很震驚,但並不認同,他又說:「情況是,再過幾年,人類 90% 的工作由人工智慧提供,就像今天我們大部分工作是由機器提供的一樣。我們的工作就是儘快讓我們的鞋底也像人一樣聰明,
而不是鞋底比我們聰明,並希望機器之心主辦的這次全球機器智慧峰會讓我們知道人工智慧會提供一個更美好的未來。」。大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智慧官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 資料科學部主任、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智慧專家參與峰會,並在主題演講、圓桌論壇等互動形式下,從科學家、企業家、技術專家的視角,解讀人工智慧的未來發展。

俞棟在 GMIS 2017 現場發表演講

上午,騰訊 AI Lab 副主任、西雅圖人工智慧研究室負責人俞棟發表了主題為《語音辨識領域的前沿研究(Frontier Research of Speech Recognition)》的演講,探討分享了語音辨識領域的 4 個前沿問題。俞棟是語音辨識和深度學習領域的著名專家。他於 1998 年加入微軟公司,此前任微軟研究院首席研究員,

兼任浙江大學兼職教授和中科大客座教授。迄今為止,他已經出版了兩本專著,發表了 160 多篇論文,是 60 余項專利的發明人及深度學習開源軟體 CNTK 的發起人和主要作者之一。俞棟曾獲 2013 年 IEEE 信號處理協會最佳論文獎。現擔任 IEEE 語音語言處理專業委員會委員,之前他也曾擔任 IEEE/ACM 音訊、語音及語言處理彙刊、IEEE 信號處理雜誌等期刊的編委。

以下是俞棟演講的主要內容:

語音辨識是一個有著悠久歷史的研究領域。

在過去的幾十年裡,研究人員從最簡單的小詞彙量閱讀語音辨識問題 Read Speech 開始,逐漸走向更加複雜的 Broadcast Speech 和 Conversational Speech語音辨識問題。如今,即便是在以前認為非常難的自由對話這樣形式的語音辨識問題上,機器也已經達到甚至超過人的識別水準。但是我們要看到,雖然取得了這些進展,但是離真正的人與機器的自由交流還有一定差距,這也就是為什麼語音辨識的研究前沿又推進了一步。

如今研究的問題越來越沒有環境、說話風格、口音、詞彙等限定(不像以前有非常多的限制),同時這也增加了語音辨識的難度,研究的前沿也從近場麥克風轉向遠場麥克風,兩者的區別在於,在遠場情況下,當人的聲音傳達到麥克風時,聲音衰減很厲害。所以以前在近場麥克風很難見到的一些困難,在遠場麥克風就變得很明顯。如果不解決這些問題,用戶在很多的應用場合仍然會覺得語音辨識效果欠佳。

所以今天在這樣的背景下,我介紹一下最近在語音辨識當中的一些前沿的研究方向。

研究方向一:更有效的序列到序列直接轉換的模型

語音辨識實際上是把語音信號的序列轉化為文字或詞的序列,所以很多人認為要解決這個問題,找到一個行之有效、序列到序列的轉換模型就可以了。

從前的絕大部分研究是通過對問題做假設,然後據此在語音信號序列到詞信號之間生成若干個元件,並逐步地轉換以生成詞的序列。在這些假設中間有許多假設,在某些特定場合它是合理的,但是在很多真實的場景下,它又是有問題的。這種模型實質上是說,如果我們去掉可能存在問題的假設,然後借助資料驅動,就有可能找到更好的方法,使序列轉換更準確。

這樣做另外一個好處是整個的訓練也可以變短。

更有效的序列到序列直接轉換的模型目前來講主要有兩個方向:方向一:CTC模型。

CTC模型十分適合語音辨識這樣的問題,因為它所要求得輸出序列長度比輸入序列長度要短很多。CTC模型還有一個優勢,傳統的深度神經網路與混合模型一般來說建模量非常小,但是在CTC模型裡面你可以相對自由地選擇建模單元,而且在某些場景下建模單元越長、越大,你的識別效果反而會越好。

最近谷歌有一項研究從YouTube上採用幾十萬小時甚至上百萬小時的訓練資料量。CTC的模型可以不依賴額外的語言模型就能做到識別率超過傳統模型。但由於訓練穩定性差,CTC模型相對于傳統模型仍然更難訓練。

更有效的序列到序列直接轉換的模型的第二個方向是:Attention 模型

Attention 模型首先把輸入序列、語音信號序列,轉換成一個中間層的序列表達,在這個中間層序列表達上面,能夠提供足夠的資訊,然後就可以基於這個資訊有一個專門的、基於遞迴神經網路的生成模型,這個方法在機器翻譯裡面現在成為了主流方案,但是在語音辨識裡面它還是一個非常不成熟的技術,它有幾個問題在裡面。

問題1:只適合短語的識別,對長的句子效果比較差。

問題2:在做語音辨識的時候,它的效果是相對來說非常不穩定的。

那麼如何解決這些問題?目前最佳的解決方案就是把 CTC 與 Attention 結合起來,這主要是因為CTC有持續資訊,可根據後面的語音信號生成詞,這有助於 Attention生成更好的表達。兩者結合的最終結果既比CTC、Attention各自訓練效果更好,所以是一個 1+1 大於 2 的結果。

但是,即便把 CTC 與 Attention 兩種模型結合起來,其效果比傳統混合模型相比,依然沒有太多長進。所以我們仍然需要解決一些問題。

問題一:在這樣的架構下面,有沒有更好的一些模型結構,或者是訓練準則,能夠比現有的CTC或者Attention模型更好。

問題二:當擁有的資料較少時,有沒有辦法建造一個結構,使得語言模型和聲學模型緊密結合在一起。

問題三:如何利用各種語料的資料,整合起來訓練一個更好的序列到序列轉換模型。

研究方向二:雞尾酒會問題

人在雞尾酒會這樣非常嘈雜的環境中能夠把注意力集中在某一個人的聲音上,遮罩掉周圍的說話聲或噪音,非常好地聽懂其要關注的那個人的說話聲音。現在絕大部分的語音辨識系統卻沒有這個能力。這個問題在近場麥克風並不明顯,這是因為人聲的信噪比非常大,而在語音辨識系統上,信噪比下降得很厲害,所以說這個問題變得非常突出,成為了一個非常關鍵、比較難解決的問題。

Label permutation問題目前有兩個較好的解決方案:

方案一:Deep Clustering。

方案二:Permutation invariant Training。

但是目前為止我們所用的一些資訊,只用到了單麥克風的輸入資訊。但是我們知道麥克風陣列可以提供很多的資訊,所以一個很重要的問題是如何有效地利用多麥克風資訊來繼續加強其能力。第二個就是有沒有辦法能夠找到一個更好的分離模型,因為現在大家用的還是LSTM,但是LSTM不見得是最佳模型。第三個問題是我們有沒有辦法利用其他的資訊,能否利用這些資訊來進一步提升它的性能。

研究方向三:持續預測與適應的模型

第三個大家關注的熱點是能否建造一個持續做預測系統。我們之前做了一個模型,它的好處是能夠非常快地工作,根據結果來改進下一個資料的識別結果。目前由於模型比較大,所以性能上很難訓練。

所以現在的問題是如何建造一個更好的模型,它能夠持續地做識別。它需要的特點是什麼呢?一個是它能夠非常快地做Adaptation,使得下一次再做識別的時候,我們有辦法把類似資訊用更好的方式壓縮在模型裡面,所以在下一次可以很快做識別。

研究方向四:前後端聯合優化

第四個研究前沿有關遠場識別以及如何做前端和後端更好的聯合優化。傳統來講,前端的信號處理技術一般只用到當前狀態下的語音的信號資訊。而機器學習方法用到很多的訓練器裡學到的資訊,但是很少用到當前幀的資訊,它不進行資料建模,所以我們有沒有辦法把這兩種方法比較好地融合在一起,這是目前很多研究組織發力的一個方向。

另外,我們有沒有辦法更好地把前端的信號處理跟後端的語音辨識引擎做更好的優化。因為前端信號處理有可能丟失資訊,且不可在後端恢復。所以我們有沒有辦法做一個自動的系統,能夠比較好地分配這些資訊的信號處理,使得前端可以比較少地丟失資訊,從而在後端把這些資訊更好地利用起來。

如今研究的問題越來越沒有環境、說話風格、口音、詞彙等限定(不像以前有非常多的限制),同時這也增加了語音辨識的難度,研究的前沿也從近場麥克風轉向遠場麥克風,兩者的區別在於,在遠場情況下,當人的聲音傳達到麥克風時,聲音衰減很厲害。所以以前在近場麥克風很難見到的一些困難,在遠場麥克風就變得很明顯。如果不解決這些問題,用戶在很多的應用場合仍然會覺得語音辨識效果欠佳。

所以今天在這樣的背景下,我介紹一下最近在語音辨識當中的一些前沿的研究方向。

研究方向一:更有效的序列到序列直接轉換的模型

語音辨識實際上是把語音信號的序列轉化為文字或詞的序列,所以很多人認為要解決這個問題,找到一個行之有效、序列到序列的轉換模型就可以了。

從前的絕大部分研究是通過對問題做假設,然後據此在語音信號序列到詞信號之間生成若干個元件,並逐步地轉換以生成詞的序列。在這些假設中間有許多假設,在某些特定場合它是合理的,但是在很多真實的場景下,它又是有問題的。這種模型實質上是說,如果我們去掉可能存在問題的假設,然後借助資料驅動,就有可能找到更好的方法,使序列轉換更準確。

這樣做另外一個好處是整個的訓練也可以變短。

更有效的序列到序列直接轉換的模型目前來講主要有兩個方向:方向一:CTC模型。

CTC模型十分適合語音辨識這樣的問題,因為它所要求得輸出序列長度比輸入序列長度要短很多。CTC模型還有一個優勢,傳統的深度神經網路與混合模型一般來說建模量非常小,但是在CTC模型裡面你可以相對自由地選擇建模單元,而且在某些場景下建模單元越長、越大,你的識別效果反而會越好。

最近谷歌有一項研究從YouTube上採用幾十萬小時甚至上百萬小時的訓練資料量。CTC的模型可以不依賴額外的語言模型就能做到識別率超過傳統模型。但由於訓練穩定性差,CTC模型相對于傳統模型仍然更難訓練。

更有效的序列到序列直接轉換的模型的第二個方向是:Attention 模型

Attention 模型首先把輸入序列、語音信號序列,轉換成一個中間層的序列表達,在這個中間層序列表達上面,能夠提供足夠的資訊,然後就可以基於這個資訊有一個專門的、基於遞迴神經網路的生成模型,這個方法在機器翻譯裡面現在成為了主流方案,但是在語音辨識裡面它還是一個非常不成熟的技術,它有幾個問題在裡面。

問題1:只適合短語的識別,對長的句子效果比較差。

問題2:在做語音辨識的時候,它的效果是相對來說非常不穩定的。

那麼如何解決這些問題?目前最佳的解決方案就是把 CTC 與 Attention 結合起來,這主要是因為CTC有持續資訊,可根據後面的語音信號生成詞,這有助於 Attention生成更好的表達。兩者結合的最終結果既比CTC、Attention各自訓練效果更好,所以是一個 1+1 大於 2 的結果。

但是,即便把 CTC 與 Attention 兩種模型結合起來,其效果比傳統混合模型相比,依然沒有太多長進。所以我們仍然需要解決一些問題。

問題一:在這樣的架構下面,有沒有更好的一些模型結構,或者是訓練準則,能夠比現有的CTC或者Attention模型更好。

問題二:當擁有的資料較少時,有沒有辦法建造一個結構,使得語言模型和聲學模型緊密結合在一起。

問題三:如何利用各種語料的資料,整合起來訓練一個更好的序列到序列轉換模型。

研究方向二:雞尾酒會問題

人在雞尾酒會這樣非常嘈雜的環境中能夠把注意力集中在某一個人的聲音上,遮罩掉周圍的說話聲或噪音,非常好地聽懂其要關注的那個人的說話聲音。現在絕大部分的語音辨識系統卻沒有這個能力。這個問題在近場麥克風並不明顯,這是因為人聲的信噪比非常大,而在語音辨識系統上,信噪比下降得很厲害,所以說這個問題變得非常突出,成為了一個非常關鍵、比較難解決的問題。

Label permutation問題目前有兩個較好的解決方案:

方案一:Deep Clustering。

方案二:Permutation invariant Training。

但是目前為止我們所用的一些資訊,只用到了單麥克風的輸入資訊。但是我們知道麥克風陣列可以提供很多的資訊,所以一個很重要的問題是如何有效地利用多麥克風資訊來繼續加強其能力。第二個就是有沒有辦法能夠找到一個更好的分離模型,因為現在大家用的還是LSTM,但是LSTM不見得是最佳模型。第三個問題是我們有沒有辦法利用其他的資訊,能否利用這些資訊來進一步提升它的性能。

研究方向三:持續預測與適應的模型

第三個大家關注的熱點是能否建造一個持續做預測系統。我們之前做了一個模型,它的好處是能夠非常快地工作,根據結果來改進下一個資料的識別結果。目前由於模型比較大,所以性能上很難訓練。

所以現在的問題是如何建造一個更好的模型,它能夠持續地做識別。它需要的特點是什麼呢?一個是它能夠非常快地做Adaptation,使得下一次再做識別的時候,我們有辦法把類似資訊用更好的方式壓縮在模型裡面,所以在下一次可以很快做識別。

研究方向四:前後端聯合優化

第四個研究前沿有關遠場識別以及如何做前端和後端更好的聯合優化。傳統來講,前端的信號處理技術一般只用到當前狀態下的語音的信號資訊。而機器學習方法用到很多的訓練器裡學到的資訊,但是很少用到當前幀的資訊,它不進行資料建模,所以我們有沒有辦法把這兩種方法比較好地融合在一起,這是目前很多研究組織發力的一個方向。

另外,我們有沒有辦法更好地把前端的信號處理跟後端的語音辨識引擎做更好的優化。因為前端信號處理有可能丟失資訊,且不可在後端恢復。所以我們有沒有辦法做一個自動的系統,能夠比較好地分配這些資訊的信號處理,使得前端可以比較少地丟失資訊,從而在後端把這些資訊更好地利用起來。