“35 歲以下科技創新 35 人”中國榜單專欄之AI持續創新者：魏思

自 1999 年起，《麻省理工科技評論》每年都會推出“35歲以下創新35人”（Innovators Under 35）榜單，旨在於全球範圍內評選出被認為最有才華、最具創新精神，以及最有可能改變世界的 35 位年輕技術創新者或企業家，共分為發明家、創業家、遠見者、人文關懷者及先鋒者五類。

2017 年，該全球權威榜單正式推出中國區評選，並已公佈並首屆評選結果。現在，《麻省理工科技評論》正式開設“35歲以下創新35人”中國榜單專欄，以人物報導的形式説明中文讀者瞭解這些來自中國的新生代科技力量。

魏思，深度學習、語音辨識

年齡：35 歲

職位：科大訊飛研究院副院長

獲獎事由：帶領團隊研發語音辨識新框架，和傳統深度學習模型相比，增加了“記憶塊”的模組，用以存儲對判斷當前語音幀有用的歷史資訊和未來資訊，可以使回應時間可以大大縮短。

近幾年，中國討論度最高的人工智慧公司少不了科大訊飛。

但大部分人是對訊飛的瞭解僅限於其語音技術，其實，科大訊飛還有一個更大的目標——打造“訊飛超腦”。

以“從能聽會說到能理解會思考”為目標的訊飛超腦計畫，要實現基於類人神經網路的認知智慧引擎，預期成果是實現世界上第一個中文認知智慧計算引擎。

魏思正是“訊飛超腦”計畫的主要負責人之一。 1999年，他進入中國科學技術大學電子工程與資訊科學系學習，並於 2008年獲得中國科學技術大學工學博士學位，同年起在科大訊飛研究院工作至今。如今，身為科大訊飛研究院副院長的魏思，同樣是訊飛語音技術的核心人物。

基於訊飛超腦計畫，科大訊飛正在開啟一場以語音和語言為入口的“認知革命”。在過去6年中，

訊飛的語音辨識技術準確率從60.2％提升到95％以上。

準確率提升的背後，是魏思帶領團隊研發的一個語音辨識“新武器”——一種名為“前饋型序列記憶網路 ”（ FSMN ）的新框架。據魏思介紹，和傳統深度學習模型相比，前饋型序列記憶網路增加了一個“記憶塊”的模組，用以存儲對判斷當前語音幀有用的歷史資訊和未來資訊，從而實現語音辨識中的“端到端”建模。和其他多個技術點結合後，訊飛基於FSMN的語音辨識框架獲得了大幅度的性能提升。這個新模型可以使回應時間可以大大縮短，例如原來的一個星期可以縮短到一天，還可以提升訓練效果。

FSMN保證了語音辨識的準確性，但這還不夠。一個大趨勢是，幾乎所有在做語音技術的人工智慧公司都會追求更高的語音合成自然程度。

在這一點上，魏思領導團隊則實現了基於深度學習的全新的語音合成系統，進一步提升合成語音的自然度和表現力。在有麻省理工學院、卡內基梅隆大學等國際知名科研機構參加的國際最高水準的語音合成比賽 Blizzard Challenge（暴風雪競賽）中，魏思團隊開發的系統連續 11 年奪冠， 7 項指標全部全球第一，並且是所有參賽隊伍中唯一超過自然人發音水準的系統。

當然，對於正在採取“平臺+賽道”擴張方式的訊飛而言，無論是哪一個賽道，都離不開技術的積累，魏思在多年科研工作中的成果也正迎來新的機會。

比如，他曾創造性地提出多種中英文語音評測評測演算法，並帶領團隊獲得國際領先成果。現在，他們已經可以將相關的評測技術應用到普通話測試及教學中，其中英文口語測試系統在國內外首次達到人工評測員水準。這項技術最主要的特點是實現了測試管理的資訊化和測試手段的現代化。

而在說話人語種識別研究上，魏思則提出了基於深度神經網路的語種識別演算法，大幅提升了語種識別的效果，成為目前業界所有語種識別系統的標準配置。

類似的案例還有很多，魏思的技術征途也不再僅限於語音：他帶領團隊提出基於CNN的離線手寫辨識策略，在世界上首次實現試卷掃描自動評分系統；在人工智慧-認知智慧方面，魏思帶領團隊獲得國際著名的常識推理比賽Winograd Schema Challenge 2016的第一名成績，該任務是國際常識推理領域的新型評測任務，被學術界普遍認為是替代圖靈測試衡量機器智慧水準的重要學術挑戰……

如果說有什麼在驅動魏思不斷地創新，那肯定少不了他對現有技術的“不滿足”。“雖然近幾年深度神經網路的興起使得語音辨識性能獲得了極大的提升，但是我們並不能迷信于現有的技術，總有一天新技術的提出會替代現有的技術”，魏思曾在一篇博文中這樣寫道。

回顧語音辨識的發展歷史和訊飛語音辨識系統的最新進展，他也發現，技術的突破總是艱難而緩慢的，重要的是堅持和不斷思考。他也堅信，“現在是一個偉大的時代”。

“那麼，在這個偉大的時代，我們的征途是什麼呢？我覺得有一句話非常能夠表現我自己或者是訊飛研究院這麼多年的思考，那就是：在中國，可以改變世界”。魏思認為，在這10年中，中國原創能力的蓬勃發展已經顯現出來，與全世界同台競技，“我們毫不怯場”。

展望下一個10年，魏思和他的團隊同樣有幾個小目標：將訊飛研究院打造成一個世界知名的研究機構，培養出一批世界頂級的科學家，最後，能夠解決幾個基本的科學問題。

“在下一個10年或者20年，我們終將可以觸及智慧的本質，解開智慧之謎”。

魏思則提出了基於深度神經網路的語種識別演算法，大幅提升了語種識別的效果，成為目前業界所有語種識別系統的標準配置。

“在下一個10年或者20年，我們終將可以觸及智慧的本質，解開智慧之謎”。