演講實錄丨黃學東：語音辨識和人工智慧進展回顧

主題：2017全球人工智慧技術大會

時間：2017年5月21日

地點：國家會議中心4層大會堂B

本文根據速記進行整理

語音辨識和人工智慧進展回顧

黃學東

微軟公司全球資深技術院士

黃學東：大家好！我今天非常高興來到北京，在強烈的燈光照射下我看不到大家，但是大家能看到我。在我開始之前，我想跟大家簡單介紹一下，我們是怎樣一個激動人心的時代，我們生活在這個時代多麼幸運。大家看一下這個視頻。

我們過去多少代人沒有實現的夢想，這是一個非常激動人心的時代。在我開始之前，我想給大家看一下經濟學人的封面故事。封面故事說，我們終於可以和人交流了，封面故事講的非常深刻，它是從1954年， IBM從做機器翻譯開始，描述了從50年代、60年代、70年代，一直到2016年，幾個很重要的歷史性的里程碑。這裡可以看出來，在貝爾實驗室當時做了很多語音辨識的實驗，

一直到美國軍方在70年代末發動了大規模的語音和語言理解的研究，到蘋果、穀歌和微軟相繼推出語音的智慧助理，深度的機器翻譯和去年年末，微軟第一次在（英文）上歷史性的達到了和人一樣的媲美的語音轉錄系統，這是一個追求卓越，追求人工智慧突破一個非常顯著的成就。

人工智慧從總體上來講包括了感知和認知兩大類。感知的突破是前所未有的，認知的突破還非常難以預測。深度學習在電腦視覺上的突破非常激動人心，我們發明了深度的RESNET，層數有150多層， PPT很難展示，首次超過了人在圖形識別上的精確性，這是一個非常了不起的成就。在去年年末，我們再次獲得了振奮人心的消息，語音辨識系統達到了和人一樣的高度，

這是一個里程碑，我82年在清華大學做語音辨識的研究，很難想像在30年中電腦的識別能超過人，因為語言是我們人特有的發明，我們和猴子最大的不同地方，我們可以用語言描述周圍深刻的世界，可以描述我們看不見的東西。今天電腦第一次可以獲得和人一樣的精准的轉錄系統，這是非常了不起的人工智慧里程碑。

在前兩年，我和卡耐基梅隆大學（英文）教授和Dragon 創始人在ACM雜誌合寫了一篇語音辨識過去40年的回顧，沒想到這個回顧的東西已經過時了，由此可見語音辨識、人工智慧發展速度有多麼快。這張圖片大概總結了在過去幾十年來，整個研究界在公開測試中做的努力，我們把平均發表（英文）的文章做了一個統計，

大部分的系統都是在10%到15%左右，一些非常新穎的東西，錯誤率超過了20%，但是IBM在過去一直領導業界的潮流，他們在（英文）上取得了非常卓越的成就，在6%到5%之間。微軟和其他很多同行一樣，也在致力於開發語音助手，在Windows10我們和其他硬體廠商，像Harman Kardon提供語音音箱，深入我們的生活。

我們看另外一個話題，看他們造就了一個怎樣的生態系統，看一下視頻。我解釋一下，我們採訪了美國很多公司，他們是怎樣開發自己的語音助理，一起為大家提供優秀的服務。人工智慧的核心技術基本上經歷了過去幾十年的變化，現在最具有代表性的是深度學習。

深度學習基於好幾個東西，第一個，我們需要有大的資料，所以智慧語音能搜集非常多的資料，

這是一個非常重要的東西。第二，不同的設備，像智慧音箱，你的手機、PC和其他的智慧設備，都會無縫結合起來，所以在這個互動情況下，人工智慧可以發揮更大的作用。所以在人工智慧這個過程中，我們需要大的計算，需要更強大的演算法，需要更多的資料。在這三者的配合下，我們可以創新很多落地的服務，這就是今天我想重點介紹一下微軟在人工智慧落地服務有什麼樣的觀點和看法。

神經網路是非常古老的技術，現在能煥發技術，最主要的原因是資料多了，計算大了，層次深了。在人工智慧發展過程中，深度神經網路可以分為三類，第一類是傳統的深度神經網路DNN，非常簡單，把資料拿過來，通過加權不斷反覆運算上去，可以類比非常大的函數。第二是轉積神經網路CNN，它可以去掉圖像的位置變化，所以它對圖像識別非常強大。第三類是RNN，可以類比動態的時間訓練，把過去的輸出當為下一個時間的輸入，這樣可以描述動態的時間訓練。這三個東西各有千秋，都不錯，加上強大的資料，基本上可以解決我們現在在感知方面遇到的主要問題。當然，因為深度學習的原因，在過去人工智慧研發過程中，基本上是要去尋找新資料的演算法，現在因為神經網路這個工具的強大，資料的豐富，和開源工具大家應有盡有，基本上變成了調參數的過程，所以只要有足夠的計算資源就可以調出非常強大的系統，當然你不知道為什麼它能工作的很好。

另外一個神經網路像東北菜的亂燉，把什麼東西都放進去，做一個大雜燴出來，只要有足夠的資料，足夠的計算，就可以做出相當不錯的系統，比如在語音辨識這個過程中，環境噪音是非常難處理的問題，現在可以把環境噪音和其他的語音特徵一起訓練，你也搞不清為什麼它能工作，它工作的很好，這就是讓我們做信號處理很惱火的事情。同樣的，各種人的口音不一樣，你講普通話可以講不同的口音，音調高度都不一樣，沒有關係，我們可以吧i-vector當成一個特徵和其他傳統的語音特徵放進去，可以訓練出一套語音對所有人都能適應的系統。所以深度學習神經網路有很多意想不到的優點，就是特徵學習非常獨特，以前的人工智慧模式識別需要做很多特徵抽取的工作，現在基本上做大雜燴，只要有計算資源，只要有資料，通過一燉亂燉做出的菜也相當鮮美。

最後我用三張PPT，基本上把所謂人工智慧有怎麼樣的突破總結出來了，基本上就是深度學習，大資料，大計算，再加上三類神經網路模型，DNN， CNN， RNN可以亂燉，做出雜燴非常鮮美，但是雜燴的化學成分什麼樣子，大家也沒有好好研究，這些是有待我們進一步發掘和理解、探索的問題。

我想，剩下的時間給大家做一個簡單的介紹，回顧一下微軟語音辨識是怎麼樣達到和人一樣媲美的水準。在Switchboard研發過程中，大家多在想人識別這樣的系統，到底精准度有多高，微軟在2016年把Switchboard的測試系統，通過我們正常的標注，有兩套人馬通過比較標注，得到的錯誤率5.9%。IBM今年挑戰微軟，說你們錯誤率太高，所以他們在澳洲重新搞了四套人馬，重新標注微軟做過的系統，他們說人的水準如果花更多的時間，聽的遍數更多可以做到5.1%，其實我覺得5.1%和5.9%是大同小異，很多人都不同意到底是5.1%還是5.9%。我們在去年10月份首次達到5.8%的水準，我們覺得達到可以和人媲美的語音辨識系統，至少是在Switchboard任務上。我們把三大神經網路系統完美整合起來，我們有10套神經網路系統在並行工作，通過最優組合創造了這個工程的奇跡。就像我剛剛講的，深度學習基本上是東北亂燉，大雜燴，我們通過10套神經網路並行處理，得到了前所未有的歷史性的里程碑，5.8%是我們去年報告的結果，這是一個了不起的奇跡。第一個是在Switchboard的語音辨識的任務上，電腦達到了和人可以媲美的水準。在今年2017年在ICASSP會議上，我們把電腦語音辨識和人標注結果，讓參加大會的人做一個選擇，我們發現50%的人選擇電腦，50%的人選擇了人的標注，再次證明通過2017年ICASSP參會者的評價，大家分辨不出是人還是機器學習的結果。

簡單介紹一下我們過去幾十年人工智慧語音辨識總的發展情況，基本上就是這樣一個狀況，通過深度學習，通過大資料，通過強大的計算，我們可以達到前所未有的感知，電腦視覺和電腦語音辨識的突破，但是在認知，推理上還有漫長的道路要走。在這樣的情況下，我們一直在考慮，我們能給大家提供什麼樣的服務，你們不需要幾十年，幾千人的深度人工智慧積累，也可以開發出更加智慧的應用。

我們在兩年前開始了微軟認知服務的研發工作，到今天已經有將近30個雲計算打包的人工智慧服務，大家可以使用，這都在Azure的雲平臺上，從電腦語音辨識到語言理解，知識表達和搜索，還有最新的人工智慧的服務，我們都打包到Azure雲上去了，所以大家在開發這個簡單的程式的時候，不要去關注裡面是怎麼做的，你可以調用這個API就可以創造出Cortana一樣強大的智慧服務。我想再強調，微軟第一次做的非常精准的手勢識別，可以通過事先標注的方法重新定義，因為手勢識別，現在大部分人的做法，和70年代語音辨識用的方法基本一樣，一個手勢用一個範本，70年代大家做語音辨識的時候，就是一個字一個範本，出來一個新字大家不知道怎麼辦，要重新訓練。今天的語音辨識是通過音素系統，你只要這個字的發音，寫下來就可以了，語音辨識通過了從範本到音素的轉變，只要定義你的位置和手勢的移動，我們可以定義一個手勢的字典，這是非常激動人心的工作。下一個風口在那裡，一定是Ambient Computing，像語音助手，你放一個智慧音箱在家裡，你可以隨喊隨到，根本不需要接觸這個裝置，所以電腦真的看不見了。語音有它的局限性，因為它很難描述這個和那個到底是什麼東西，語音加上手勢，一定是領導下一個電腦浪潮的領頭軍。所以我非常激動，微軟的認知服務不僅僅是提供了語音辨識，還提供了Cortana最基本的智慧，大家可以參與在新的認知平臺上，可以開發最新最高級的智慧應用程式。

下面講幾個案例，通過微軟的認知服務到底能做什麼。比如微軟最新技術Switchboard達到人的水準，這是在某一個環境下做成的，今天技術很難做成完全通用的，不管什麼樣的任務都很難做得和人一樣優秀。我給大家演示一下遊戲開發公司，用微軟的量身定制的語音辨識系統能做到什麼程度。開發遊戲的過程中，他們可以做到完全精准的語音聲控和語言理解。

下面給大家演示一下微軟小冰語音合成能做到什麼樣的水準，語音合成也是因為深度學習的關係，最近取得了長足的進展，它的自然度大家可以看看這個表，微軟小冰的語音合成自然度已經非常接近人類的水準，給大家簡單放一下小冰語音合成現在是什麼樣的情況，希望大家能聽到這個音訊。這些是通過我們深度學習語音合成翻譯成比較自然的語音。

第四個案例給大家介紹智慧客服，微軟有非常多的產品線，我們的客服需求的工作是相當繁重的，對技術要求也相當深刻，可以說在全球500強裡，我們對客服的要求非常高，微軟用人工智慧和深度學習的方法，最近推出了一個聊天的機器人，多倫多計畫，這已經在美國上線了，所以如果你在美國的話，這時候已經有微軟的語音智慧客服為你解答問題，這是自然語言理解的系統，現在你不是和人聊天，你是和機器聊天，它像人工客服一樣，一步一步可以幫你解決很多微軟產品的問題，如果你不滿意，這時候我們馬上可以連入人工客服，為你解決你的問題，這是一個非常重要的人工智慧解決實際問題的案例。

今年，英美達在開了一個大會，他們的CEO自己做過一個評測，在這裡面，這個綠色是越小越快，他們推出了最新的GPU，比以前的系統快很多倍，同時也評價了Caffe 2 和MxNET，這也是相當快的深度學習系統，可以看出來CNTK中間這個深度學習包，在最新的V系列上是前所未有的快，所以我們是非常自豪跟大家分享。

最後，我講一下在中國的實際案例，這是一個醫療解決方案。在中國糖尿病性視網膜病變是很常見的併發症，全球有4億多人有這樣的問題，上海長征醫院和Airdoc合作，用微軟的CNTK開發了一個非常強大的電腦視覺識別系統Airdoc DR，檢測糖尿病的正確率水準已經達到了中國普通醫生的水準，所以這是一個非常了不起的，為中國老百姓提供實實在在的福利的人工智慧案例，我想給大家看一下他們的視頻。看到的是中國本土公司用微軟的CNTK，怎麼樣解決實實在在的問題，為老百姓提供福利的非常好的案例。

總結一下，這是個非常激動人心的時代，就像剛剛我開始的時候視頻介紹的一樣，人類歷史長河中，人類往前的進步是非常激動人心的，人工智慧將帶來的變革在今後10年將是以前2000不可媲美的。再次感謝大家，我們能有這樣一個非常激動人心的機會，和大家一起推動人工智慧往前發展，在感知和認知上取得更大突破，造福人類，謝謝大家。

CAAI原創丨作者黃學東

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智慧學會

交叉、融合、相生、共贏

通過加權不斷反覆運算上去，可以類比非常大的函數。第二是轉積神經網路CNN，它可以去掉圖像的位置變化，所以它對圖像識別非常強大。第三類是RNN，可以類比動態的時間訓練，把過去的輸出當為下一個時間的輸入，這樣可以描述動態的時間訓練。這三個東西各有千秋，都不錯，加上強大的資料，基本上可以解決我們現在在感知方面遇到的主要問題。當然，因為深度學習的原因，在過去人工智慧研發過程中，基本上是要去尋找新資料的演算法，現在因為神經網路這個工具的強大，資料的豐富，和開源工具大家應有盡有，基本上變成了調參數的過程，所以只要有足夠的計算資源就可以調出非常強大的系統，當然你不知道為什麼它能工作的很好。

CAAI原創丨作者黃學東

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智慧學會

交叉、融合、相生、共贏