微軟目前在語音辨識領域應用深度學習的歷史性突破
在幾十年的歷程中,有非常多優秀的公司在語音和語言領域進行了不懈地探索,
Switchboard是整個工業界常用的一個測試資料集。很多新的領域或新的方法錯誤率基本都在20%左右徘徊。
各種各樣的神經網路學習方法其實都大同小異,基本上是通過梯度下降法(Gradient Descent)找到最佳的參數,通過深度學習表達出最優的模型,
深度學習翻身的最主要原因就是層數的增加,並且和隱瑪律可夫模型結合。在這方面微軟研究院也走在業界的前端。深度學習還有一個特別好的方法,就是特別適合把不同的特徵整合起來,就是特徵融合(Feature Fusion)。
如果在噪音很高的情況下可以把特徵參數增強,再加上與環境噪音有關的東西,通過深度學習就可以學出很好的結果。
我們的神經網路系統目前有好幾種不同的類型,最常見的是借用電腦視覺CNN(Convolution Neural Net,
微軟語音辨識的總結基本上可以用下圖來表示。
下圖是業界在過去幾十年裡面錯誤率下降的指標,可以看到5.8%是微軟在去年達到的水準。Switchboard的錯誤率從80%左右一直到5.8%左右,是用了什麼方法呢?我們是怎麼達到這個目標呢?
大家知道語音辨識有兩個主要的部分,一個是語音模型,一個是語言模型。
語音模型我們基本上用了6個不同的神經網路,並行的同時識別。很有效的一個方法是微軟亞洲研究院在電腦視覺方面發明的ResNet(殘差網路),它是CNN的一個變種。當然,我們也用了RNN。可以看出,這6個不同的神經網路在並行工作,隨後我們再把它們有機地結合起來。在此基礎之上再用4個神經網路做語言模型,然後重新整合。所以基本上是10個神經網路在同時工作,這就造就了我們歷史性的突破。
下圖是業界在過去幾十年裡面錯誤率下降的指標,可以看到5.8%是微軟在去年達到的水準。Switchboard的錯誤率從80%左右一直到5.8%左右,是用了什麼方法呢?我們是怎麼達到這個目標呢?
大家知道語音辨識有兩個主要的部分,一個是語音模型,一個是語言模型。
語音模型我們基本上用了6個不同的神經網路,並行的同時識別。很有效的一個方法是微軟亞洲研究院在電腦視覺方面發明的ResNet(殘差網路),它是CNN的一個變種。當然,我們也用了RNN。可以看出,這6個不同的神經網路在並行工作,隨後我們再把它們有機地結合起來。在此基礎之上再用4個神經網路做語言模型,然後重新整合。所以基本上是10個神經網路在同時工作,這就造就了我們歷史性的突破。