專訪 | 阿裡iDST初敏博士和陳一甯博士：如何打破語音技術的落地怪圈

雷鋒網按：人工智慧技術大熱，一茬接一茬的AI創業公司蜂擁而起，得到資本和媒體的寵愛。單是根據去年4月份的統計資料，就有170家Chatbot公司燒掉40億美金。

而“人工智慧”自帶黑科技光環的技術名詞，更是每隔幾個月都要在媒體頭條上“戰勝人類”一次。

今年3月初， Yann Lecun在Twitter上推薦了一篇評論文章，文章作者Bradford Cross表達了一個非常重要的觀點：機器學習即服務（MLaaS）在實踐中令人失望，而且AI公司往往陷入技術傲慢裡而輕視了用戶需求和公司經濟學。

如果我們把2016年看做是AI在中國的初露鋒芒的“元年”，受到百般呵護和追捧，那麼到2017年，它就要面臨嚴酷的商業社會考驗了。因為歸根結底，技術的終極價值都要體現在實際應用裡。如何讓AI技術有效落地、為商業社會創造真正的價值？圍繞這個問題， AI科技評論近日採訪了阿裡iDST總監初敏博士（圖右）和iDST語音技術產品化團隊負責人陳一甯博士（圖左），

剝析阿裡雲在AI技術落地的過程裡走過的坑和邁過的坎。

雷鋒網：阿裡NASA計畫發佈之後， iDST與NASA之間的關係是怎樣的？

初敏：NASA是一個大的計畫，我覺得是想把有難度的事情更集中在一起做好，而不是像以前一樣分散在各個業務裡。就我所在的團隊而言，應該沒有太大的影響。 iDST還是集中解決自然語言、電腦視覺裡比較難的問題。

雷鋒網：你們為企業提供語音技術服務的形式是什麼？

陳一寧：我們當然提供API、SDK這樣底層的基礎接入。也提供解決方案，但解決方案也分很多種，有的解決方案都細化到說函數都定義好了，就剩實現與否。我們的解決方案會更往上一點，就是給你一個大體的框架，至於最後軟體設計成什麼樣子、最後的展現形態，

我們也不需要特別地去掌控。所以我們還是主要跟合作夥伴一起完成一個項目，不是特別端到端大規模推廣的一種模式。比如奧點雲這個例子，我們會告訴對方搭建的整體框圖是什麼、如何去搭建，那麼再細化的工作可能就不是由我們來做了。

雷鋒網：阿裡的語音技術目前在哪些垂直領域有比較成熟的應用？

陳一寧：這次我們發佈的幾個戰略合作項目都是比較成熟的。第一個就是與昆石一起發佈的質檢雲系統。實際上它是在做線路的質檢，主要因為現在詐騙比較多，我們也是希望能夠給社會做一些貢獻。這個質檢系統能夠檢測出一些常見的詐騙套路。經營者其實都是對於詐騙深惡痛絕的，

但是又很難發現，靠人工來監聽，成本實在是太高了。那麼通過語音辨識的方式，把語音變成文字以後，詐騙的套路就比較容易被檢測出來。

第二個就是在直播裡生成字幕。即時生成字幕在商用直播裡正在逐步變成流行的功能了。他們的需求就是，有時候用戶不能聽、只能看，這個時候需要字幕；還有的比如會議直播，開完之後希望有一個速記稿出來，那就沒有必要專門請一個速記員。所以我們跟奧點雲合作的就是這類。

第四個就是我們的法庭速記。這已經有了一套完整的可複製的模式，自動化生成審判書，甚至現場狀況好的時候，直接列印出來簽字就可以了。

雷鋒網：目前語音市場還是處在被教育的階段嗎？還是說現在已經有很多企業主動跑過來找你們了？

陳一寧：我們現在的情況是，

主動找過來的企業，已經應接不暇了。那市場是不是還要被教育，我覺得也是的，跟一個大爆發市場相比，現在還是一個先期的狀態。

初敏：我也覺的目前還是處在一個市場被教育的階段，這不是一個所有人都去搶的well-developed的市場。

比如說像奧點雲這樣的一個項目，過去是沒有的，在過去這個市場是不存在的。這個市場現在之所以會存在，是因為我們雲棲大會上展示了這樣的技術和案例，很多人看見了，就覺得自己也想要。我們當時在雲棲大會的直播上出了字幕，所以很多做視頻的就會說，我也想要這個，所以這才推動奧點雲這個項目誕生。就生成字幕這個技術而言，其實字幕只是一種外在的表現形式，裡面更重要的是，語音轉成文字之後，就擁有一種新的資料形態了，那你根據這些資料，可以對視頻做檢索，對視頻內容進行分析等等，後續可以做很多事情。

再比如我們去法院裡做速記，這也不是一個存量市場，一家法院用了之後，其他法院覺得挺好的，才開始有這個市場。所以我覺的，是我們在探索新的市場，但是具體到要把某一個領域真正做的好，不是單單靠我們這邊把一套完整的東西做完，也要靠合作夥伴的精耕細作。

我們現在很重要的一個方向，就是把在新領域探索的合作專案經驗和模式固化下來，這樣我們在初期的投入才是有價值的。

雷鋒網：現在你們的語音技術有一套固化下來的應用模式嗎？

陳一寧：我理解是每一個行業是不太一樣的。比如說像我們現在這種司法的領域，其中涉及到個整個數字法庭怎麼佈置、接入多少路的資料、資料更新、麥克風怎麼擺放，什麼樣的設備進行回聲消除、是否要有音量顯示......等等整個一套流程，這就是這個領域特有的模式。

初敏：對。其實是說從某種角度來說，就是要把它變成標準化的流程。除了語音辨識技術本身，同時可能要提供一些最基礎的一些工具，比如說麥克風音量的監測（音量太大或太小都是不行的）。因為在初期，我們的合作夥伴沒有相關經驗，所以我們有時候就是要多往前走一步，幫他們一下。比如有時候兩個麥克風特別近，或者現場一個喇叭就放在麥克風後面，這都是有問題的，那我們團隊就要現場去指導部署。合作夥伴能搞定兩個了，那之後複製一百個也沒問題了，但是頭兩個我們都會派人去幫它一起看。

雷鋒網：語音技術應用於具體的業務場景過程中，你們面臨了哪些阻礙？

初敏：把一個看似很高大上的技術成功應用，真的是有太多的細節問題要去解決。就像我們雲棲大會現場生成字幕，其實頭兩場雲棲大會，我們最害怕的是接線，線路接不對，就會有巨大的雜訊在裡面，那就太嚇人了。我記得有一次，就突然有電雜訊，最後還是請教音訊老師，只要把其中兩個線路插在一個電線板上，問題就解決了，但我們之前並不知道。

所以，我們這一年時間做下來，切身體會到，語音技術落地真的不是閉著眼睛就能做到的。一般技術提供商，會想當然地認為，我們有API和SDK，你接入就好了嘛，其實遠不是這麼回事兒（笑）。這個過程中，就是要把工作做細，積累成一個可以複製的模式。

陳一寧：之前我們擔心的很多問題，包括麥克風的選型、線路搭建、有沒有引入雜訊......這樣的一些落地的細節中都會有很多問題會產生。

其實這場雲棲大會的字幕，已經徹底是由供應商來做全部的事情了。以前的話，是我們團隊自己來做，所以就一場一場慢慢來，到今年雲棲大會的字幕、網上直播的字幕，已經都完全是由供應商來完成了，我們基本上就沒有參與了。

我們就怕技術是一個Demo，就是我能操作，但換一個人用就不行了。所以我們初期跟合作夥伴磨合，做好幾個具體專案後，後續讓他們自己完全掌控，這就是我們特別希望達到的一個狀態。

雷鋒網：陳一甯老師，您之前在演講中提到強定制化是阿裡的核心競爭力，能具體講講嗎？

陳一寧：語音技術的實現跟領域的相關性很高，它不像輸入法，做出來一個，到哪裡都能用。其實很多時候，你在一個領域裡做好了技術，到其它場景就不能用了。通用的語音技術是無法滿足客戶特定需求的，那麼我們會幫助他們去定制專屬於自己的語音引擎。比如我們的ET智慧語音系統正在逐漸對外開放，最簡單有熱詞的設置（這個已經開放了），更進一步的還可以接入自己的領域資料，這一點我們內部業務團隊已經在成熟地使用了，之後也會推廣給外部合作夥伴。

醫療領域和電商領域，肯定是不相關的，在知識上講，各自都有很多的詞彙。客戶在自己的領域都具有很多的知識和資訊，那麼客戶把包含特色資訊的文本輸入進來，由我們的機器來學習這些文本，識別率就會得到提升。

阿裡對於客戶資料的保護是非常嚴格的，有非常高等級的要求。除了各種ISO認證，內部還有很多嚴格的規定，是不能看使用者資料的。一般來說，各領域的知識，也通常不是敏感的資訊。但如果是某些行業的資料敏感度高，那麼我們也有專有雲來做相關的事情。

雷鋒網：初敏老師，您之前在演講中談到，對AI公司來說反覆運算的速度是非常重要的，為什麼？

初敏：其實一個學習的過程，簡單來講就是給一堆資料，然後從中學個模型出來。但是如果從一個場景資料換到另一個場景資料，你能夠多快學出來？

今天所有的機器學習裡，如果做的規模比較大，訓練過程是很慢的，有時幾天、幾星期都弄不好。通常小一點的企業，基本上都是按“月”來反覆運算的，都兩個月、三個月才完成一次完整的調試。幾十萬和幾千萬的樣本規模是很不一樣的。典型的語音辨識，如果是2千個小時的資料，只用一塊卡，可能需要好幾天才能反覆運算一次，那如果是2萬個小時的資料，基本上就不可行了。所以，很多的時候，底層的技術保障也是必須的。

我們現在要花很多時間做多機多卡，其實訓練模型在整個過程中間也只是非常小的一環，在整個鏈條裡只占三分之一的時間，剩下三分之二的時間就是在倒騰資料。比如我們今天，把資料存在某個地方，然後把它拿出來提升feature，然後還要做一輪預處理（例如語音辨識需要做傳統的HMM），這一套前期的工作可能比在GPU上進行深度學習訓練花費的時間還要多。實際上，反覆運算速度決定了你的進步速度，是讓A和B真正產生差別的地方。真正到大規模訓練和應用的時候，底層的基礎設施能力是非常非常重要的。所以今天高校研究就面臨很大的挑戰，就是因為當面臨大規模資料的時候，就會做不了，所以通常高校老師會做演算法本身的研究。

那我們現在希望把這個速度做到按“天”反覆運算。這當中就是主要是基於阿裡雲的雲計算平臺的優勢。我們從資料的存儲、處理，到不同階段在CPU、GPU上的打通，併發性比較好，所以才會比較快。

雷鋒網：AI行業裡有一個很經典的問題，就是現在大部分AI公司都是拿著錘子找釘子。你們如何解決找“釘子”（用戶需求）的問題？

初敏：阿裡整個的氛圍就是比較務實的。我覺AI技術在阿裡比較容易成功落地，是因為我們比較幸運地可以借助很多外力。首先就是有非常多的業務場景，這個是別人很難得到的，往往得到其中一個就很難，而我們手裡有8至10個非常好的業務場景。你的技術只有在真正用的時候才能打磨，最終做到真正好用。所以這就是我們覺得很興奮的地方，就像一寧昨天晚上工作到2點才休息，其實我們團隊很多人真的每天都是這麼拼的。因為你有很多的業務場景，只要你有能力，你都可以去做。

我們不是到處要找“釘子”，而是“釘子”堆上來了，就看你搞不搞的定。所以我們始終處在一個超級興奮的過程中，恨不得每天多做點事兒（笑）。再有一個就是，阿裡雲這些非常好的基礎設施，使得我們在起步的時候，門檻就低很多。

所以雖然我們只有幾十個人，但我們做了很多事情。當然，這些事情也並不全是我們自己做的，我們在內部有很多合作夥伴，特別是工程落地方面，內部業務都是合作夥伴做的。所以我覺的特別幸運，就是你有場景、有資料、有很好的計算平臺，還有特別多的合作夥伴一起做事情，我覺得這是我們特別有優勢的地方。

雷鋒網：如何看待以亞馬遜Alexa為代表的語音助手，它們會成為取代手機的下一代的入口載體嗎?

初敏：取代手機是不太可能。無論是什麼入口，最終的大目標是一致的：為了獲取網上或雲上的資訊。有時候手機觸摸交互就很方便，那如果我在做飯，也許一個語音交互的冰箱就更合適。在不同的場景中，會用到不同的端。

我認為，未來並不是每一個家電設備都要具有接入語音的能力，一個場景裡有一個主導設備（Hub）就可以了，可能是音響、Wifi設備或電視等等，並沒有太本質的區別。無非就是有沒有麥克風和揚聲器，有沒有攝像頭，最理想的狀態就是能跟別的設備都連在一起，那家居的資料聯通問題，就是我們IoT的團隊在做，在慢慢嘗試做一個接入體系。

那到底是哪類家居會成為它所在場景裡的Hub，我覺的目前這個是不明確的，大家都在嘗試階段。

雷鋒網：2016年你們主要做了什麼工作？2017年主要的目標是什麼？

陳一寧：2016年最主要的事情，就是我們從零開始，對外提供產品化的語音技術。這讓我們真正意識到，我們的技術確實能夠幫助到戶，這非常令人振奮。

未來一段時間，我們更多的是希望跟合作夥伴的業務結合，把已有的合作樣例變成成熟的解決方案，推廣給更多的客戶，這是我們今年著重關注的事情。

初敏：過去一段時間，我覺得我們跑的非常快。在別的企業裡頭，可能花了十年時間積攢的技術，我們2年就做出來了，技術本身的反覆運算非常快。

我們並不是在追求技術的“高大上”，而是希望把技術做好，最終能落地。那麼一寧的團隊沖在最前面，我們的團隊比較在後方一些。語音這個技術，到底能怎麼用，過去大家一想，就說“個人助理”。但今天我們看到了，遠遠不止這麼一個用途。我們所有的市場，都不是存量市場，都需要去開拓。

我們的團隊成員很多是做研究出身的，我們就有一個特別大的夢想，就是把這個技術做到真正可以使用。過去這一年，真的是讓我們看到這個夢想實現的希望，這條路越開越寬，這是我覺得特別興奮的。

就生成字幕這個技術而言，其實字幕只是一種外在的表現形式，裡面更重要的是，語音轉成文字之後，就擁有一種新的資料形態了，那你根據這些資料，可以對視頻做檢索，對視頻內容進行分析等等，後續可以做很多事情。