您的位置:首頁>科技>正文

專訪 | 阿裡iDST初敏博士和陳一甯博士:如何打破語音技術的落地怪圈

雷鋒網按:人工智慧技術大熱, 一茬接一茬的AI創業公司蜂擁而起, 得到資本和媒體的寵愛。 單是根據去年4月份的統計資料 , 就有170家Chatbot公司燒掉40億美金。

而“人工智慧”自帶黑科技光環的技術名詞, 更是每隔幾個月都要在媒體頭條上“戰勝人類”一次。

今年3月初, Yann Lecun在Twitter上推薦了一篇評論文章, 文章作者Bradford Cross表達了一個非常重要的觀點:機器學習即服務(MLaaS)在實踐中令人失望, 而且AI公司往往陷入技術傲慢裡而輕視了用戶需求和公司經濟學。

如果我們把2016年看做是AI在中國的初露鋒芒的“元年”, 受到百般呵護和追捧, 那麼到2017年, 它就要面臨嚴酷的商業社會考驗了。 因為歸根結底, 技術的終極價值都要體現在實際應用裡。 如何讓AI技術有效落地、為商業社會創造真正的價值?圍繞這個問題, AI科技評論近日採訪了阿裡iDST總監初敏博士(圖右)和iDST語音技術產品化團隊負責人陳一甯博士(圖左),

剝析阿裡雲在AI技術落地的過程裡走過的坑和邁過的坎。

雷鋒網:阿裡NASA計畫發佈之後, iDST與NASA之間的關係是怎樣的?

初敏:NASA是一個大的計畫, 我覺得是想把有難度的事情更集中在一起做好, 而不是像以前一樣分散在各個業務裡。 就我所在的團隊而言, 應該沒有太大的影響。 iDST還是集中解決自然語言、電腦視覺裡比較難的問題。

雷鋒網:你們為企業提供語音技術服務的形式是什麼?

陳一寧:我們當然提供API、SDK這樣底層的基礎接入。 也提供解決方案, 但解決方案也分很多種, 有的解決方案都細化到說函數都定義好了, 就剩實現與否。 我們的解決方案會更往上一點, 就是給你一個大體的框架, 至於最後軟體設計成什麼樣子、最後的展現形態,

我們也不需要特別地去掌控。 所以我們還是主要跟合作夥伴一起完成一個項目, 不是特別端到端大規模推廣的一種模式。 比如奧點雲這個例子, 我們會告訴對方搭建的整體框圖是什麼、如何去搭建, 那麼再細化的工作可能就不是由我們來做了。

雷鋒網:阿裡的語音技術目前在哪些垂直領域有比較成熟的應用?

陳一寧:這次我們發佈的幾個戰略合作項目都是比較成熟的。 第一個就是與昆石一起發佈的質檢雲系統。 實際上它是在做線路的質檢, 主要因為現在詐騙比較多, 我們也是希望能夠給社會做一些貢獻。 這個質檢系統能夠檢測出一些常見的詐騙套路。 經營者其實都是對於詐騙深惡痛絕的,

但是又很難發現, 靠人工來監聽, 成本實在是太高了。 那麼通過語音辨識的方式, 把語音變成文字以後, 詐騙的套路就比較容易被檢測出來。

第二個就是在直播裡生成字幕。 即時生成字幕在商用直播裡正在逐步變成流行的功能了。 他們的需求就是, 有時候用戶不能聽、只能看, 這個時候需要字幕;還有的比如會議直播, 開完之後希望有一個速記稿出來, 那就沒有必要專門請一個速記員。 所以我們跟奧點雲合作的就是這類。

第四個就是我們的法庭速記。 這已經有了一套完整的可複製的模式, 自動化生成審判書, 甚至現場狀況好的時候, 直接列印出來簽字就可以了。

雷鋒網:目前語音市場還是處在被教育的階段嗎?還是說現在已經有很多企業主動跑過來找你們了?

陳一寧:我們現在的情況是,

主動找過來的企業, 已經應接不暇了。 那市場是不是還要被教育, 我覺得也是的, 跟一個大爆發市場相比, 現在還是一個先期的狀態。

初敏:我也覺的目前還是處在一個市場被教育的階段, 這不是一個所有人都去搶的well-developed的市場。

比如說像奧點雲這樣的一個項目, 過去是沒有的, 在過去這個市場是不存在的。 這個市場現在之所以會存在, 是因為我們雲棲大會上展示了這樣的技術和案例, 很多人看見了, 就覺得自己也想要。 我們當時在雲棲大會的直播上出了字幕, 所以很多做視頻的就會說, 我也想要這個, 所以這才推動奧點雲這個項目誕生。 就生成字幕這個技術而言, 其實字幕只是一種外在的表現形式,裡面更重要的是,語音轉成文字之後,就擁有一種新的資料形態了,那你根據這些資料,可以對視頻做檢索,對視頻內容進行分析等等,後續可以做很多事情。

再比如我們去法院裡做速記,這也不是一個存量市場,一家法院用了之後,其他法院覺得挺好的,才開始有這個市場。所以我覺的,是我們在探索新的市場,但是具體到要把某一個領域真正做的好,不是單單靠我們這邊把一套完整的東西做完,也要靠合作夥伴的精耕細作。

我們現在很重要的一個方向,就是把在新領域探索的合作專案經驗和模式固化下來,這樣我們在初期的投入才是有價值的。

雷鋒網:現在你們的語音技術有一套固化下來的應用模式嗎?

陳一寧:我理解是每一個行業是不太一樣的。比如說像我們現在這種司法的領域,其中涉及到個整個數字法庭怎麼佈置、接入多少路的資料、資料更新、麥克風怎麼擺放,什麼樣的設備進行回聲消除、是否要有音量顯示......等等整個一套流程,這就是這個領域特有的模式。

初敏:對。其實是說從某種角度來說,就是要把它變成標準化的流程。除了語音辨識技術本身,同時可能要提供一些最基礎的一些工具,比如說麥克風音量的監測(音量太大或太小都是不行的)。因為在初期,我們的合作夥伴沒有相關經驗,所以我們有時候就是要多往前走一步,幫他們一下。比如有時候兩個麥克風特別近,或者現場一個喇叭就放在麥克風後面,這都是有問題的,那我們團隊就要現場去指導部署。合作夥伴能搞定兩個了,那之後複製一百個也沒問題了,但是頭兩個我們都會派人去幫它一起看。

雷鋒網:語音技術應用於具體的業務場景過程中,你們面臨了哪些阻礙?

初敏:把一個看似很高大上的技術成功應用,真的是有太多的細節問題要去解決。就像我們雲棲大會現場生成字幕,其實頭兩場雲棲大會,我們最害怕的是接線,線路接不對,就會有巨大的雜訊在裡面,那就太嚇人了。我記得有一次,就突然有電雜訊,最後還是請教音訊老師,只要把其中兩個線路插在一個電線板上,問題就解決了,但我們之前並不知道。

所以,我們這一年時間做下來,切身體會到,語音技術落地真的不是閉著眼睛就能做到的。一般技術提供商,會想當然地認為,我們有API和SDK,你接入就好了嘛,其實遠不是這麼回事兒(笑)。這個過程中,就是要把工作做細,積累成一個可以複製的模式。

陳一寧:之前我們擔心的很多問題,包括麥克風的選型、線路搭建、有沒有引入雜訊......這樣的一些落地的細節中都會有很多問題會產生。

其實這場雲棲大會的字幕,已經徹底是由供應商來做全部的事情了。以前的話,是我們團隊自己來做,所以就一場一場慢慢來,到今年雲棲大會的字幕、網上直播的字幕,已經都完全是由供應商來完成了,我們基本上就沒有參與了。

我們就怕技術是一個Demo,就是我能操作,但換一個人用就不行了。所以我們初期跟合作夥伴磨合,做好幾個具體專案後,後續讓他們自己完全掌控,這就是我們特別希望達到的一個狀態。

雷鋒網:陳一甯老師,您之前在演講中提到強定制化是阿裡的核心競爭力,能具體講講嗎?

陳一寧:語音技術的實現跟領域的相關性很高,它不像輸入法,做出來一個,到哪裡都能用。其實很多時候,你在一個領域裡做好了技術,到其它場景就不能用了。通用的語音技術是無法滿足客戶特定需求的,那麼我們會幫助他們去定制專屬於自己的語音引擎。比如我們的ET智慧語音系統正在逐漸對外開放,最簡單有熱詞的設置(這個已經開放了),更進一步的還可以接入自己的領域資料,這一點我們內部業務團隊已經在成熟地使用了,之後也會推廣給外部合作夥伴。

醫療領域和電商領域,肯定是不相關的,在知識上講,各自都有很多的詞彙。客戶在自己的領域都具有很多的知識和資訊,那麼客戶把包含特色資訊的文本輸入進來,由我們的機器來學習這些文本,識別率就會得到提升。

阿裡對於客戶資料的保護是非常嚴格的,有非常高等級的要求。除了各種ISO認證,內部還有很多嚴格的規定,是不能看使用者資料的。一般來說,各領域的知識,也通常不是敏感的資訊。但如果是某些行業的資料敏感度高,那麼我們也有專有雲來做相關的事情。

雷鋒網:初敏老師,您之前在演講中談到,對AI公司來說反覆運算的速度是非常重要的,為什麼?

初敏:其實一個學習的過程,簡單來講就是給一堆資料,然後從中學個模型出來。但是如果從一個場景資料換到另一個場景資料,你能夠多快學出來?

今天所有的機器學習裡,如果做的規模比較大,訓練過程是很慢的,有時幾天、幾星期都弄不好。通常小一點的企業,基本上都是按“月”來反覆運算的,都兩個月、三個月才完成一次完整的調試。幾十萬和幾千萬的樣本規模是很不一樣的。典型的語音辨識,如果是2千個小時的資料,只用一塊卡,可能需要好幾天才能反覆運算一次,那如果是2萬個小時的資料,基本上就不可行了。所以,很多的時候,底層的技術保障也是必須的。

我們現在要花很多時間做多機多卡,其實訓練模型在整個過程中間也只是非常小的一環,在整個鏈條裡只占三分之一的時間,剩下三分之二的時間就是在倒騰資料。比如我們今天,把資料存在某個地方,然後把它拿出來提升feature,然後還要做一輪預處理(例如語音辨識需要做傳統的HMM),這一套前期的工作可能比在GPU上進行深度學習訓練花費的時間還要多。實際上,反覆運算速度決定了你的進步速度,是讓A和B真正產生差別的地方。真正到大規模訓練和應用的時候,底層的基礎設施能力是非常非常重要的。所以今天高校研究就面臨很大的挑戰,就是因為當面臨大規模資料的時候,就會做不了,所以通常高校老師會做演算法本身的研究。

那我們現在希望把這個速度做到按“天”反覆運算。這當中就是主要是基於阿裡雲的雲計算平臺的優勢。我們從資料的存儲、處理,到不同階段在CPU、GPU上的打通,併發性比較好,所以才會比較快。

雷鋒網:AI行業裡有一個很經典的問題,就是現在大部分AI公司都是拿著錘子找釘子。你們如何解決找“釘子”(用戶需求)的問題?

初敏:阿裡整個的氛圍就是比較務實的。我覺AI技術在阿裡比較容易成功落地,是因為我們比較幸運地可以借助很多外力。首先就是有非常多的業務場景,這個是別人很難得到的,往往得到其中一個就很難,而我們手裡有8至10個非常好的業務場景。你的技術只有在真正用的時候才能打磨,最終做到真正好用。所以這就是我們覺得很興奮的地方,就像一寧昨天晚上工作到2點才休息,其實我們團隊很多人真的每天都是這麼拼的。因為你有很多的業務場景,只要你有能力,你都可以去做。

我們不是到處要找“釘子”,而是“釘子”堆上來了,就看你搞不搞的定。所以我們始終處在一個超級興奮的過程中,恨不得每天多做點事兒(笑)。再有一個就是,阿裡雲這些非常好的基礎設施,使得我們在起步的時候,門檻就低很多。

所以雖然我們只有幾十個人,但我們做了很多事情。當然,這些事情也並不全是我們自己做的,我們在內部有很多合作夥伴,特別是工程落地方面,內部業務都是合作夥伴做的。所以我覺的特別幸運,就是你有場景、有資料、有很好的計算平臺,還有特別多的合作夥伴一起做事情,我覺得這是我們特別有優勢的地方。

雷鋒網:如何看待以亞馬遜Alexa為代表的語音助手,它們會成為取代手機的下一代的入口載體嗎?

初敏:取代手機是不太可能。無論是什麼入口,最終的大目標是一致的:為了獲取網上或雲上的資訊。有時候手機觸摸交互就很方便,那如果我在做飯,也許一個語音交互的冰箱就更合適。在不同的場景中,會用到不同的端。

我認為,未來並不是每一個家電設備都要具有接入語音的能力,一個場景裡有一個主導設備(Hub)就可以了,可能是音響、Wifi設備或電視等等,並沒有太本質的區別。無非就是有沒有麥克風和揚聲器,有沒有攝像頭,最理想的狀態就是能跟別的設備都連在一起,那家居的資料聯通問題,就是我們IoT的團隊在做,在慢慢嘗試做一個接入體系。

那到底是哪類家居會成為它所在場景裡的Hub,我覺的目前這個是不明確的,大家都在嘗試階段。

雷鋒網:2016年你們主要做了什麼工作?2017年主要的目標是什麼?

陳一寧:2016年最主要的事情,就是我們從零開始,對外提供產品化的語音技術。這讓我們真正意識到,我們的技術確實能夠幫助到戶,這非常令人振奮。

未來一段時間,我們更多的是希望跟合作夥伴的業務結合,把已有的合作樣例變成成熟的解決方案,推廣給更多的客戶,這是我們今年著重關注的事情。

初敏:過去一段時間,我覺得我們跑的非常快。在別的企業裡頭,可能花了十年時間積攢的技術,我們2年就做出來了,技術本身的反覆運算非常快。

我們並不是在追求技術的“高大上”,而是希望把技術做好,最終能落地。那麼一寧的團隊沖在最前面,我們的團隊比較在後方一些。語音這個技術,到底能怎麼用,過去大家一想,就說“個人助理”。但今天我們看到了,遠遠不止這麼一個用途。我們所有的市場,都不是存量市場,都需要去開拓。

我們的團隊成員很多是做研究出身的,我們就有一個特別大的夢想,就是把這個技術做到真正可以使用。過去這一年,真的是讓我們看到這個夢想實現的希望,這條路越開越寬,這是我覺得特別興奮的。

就生成字幕這個技術而言, 其實字幕只是一種外在的表現形式,裡面更重要的是,語音轉成文字之後,就擁有一種新的資料形態了,那你根據這些資料,可以對視頻做檢索,對視頻內容進行分析等等,後續可以做很多事情。

再比如我們去法院裡做速記,這也不是一個存量市場,一家法院用了之後,其他法院覺得挺好的,才開始有這個市場。所以我覺的,是我們在探索新的市場,但是具體到要把某一個領域真正做的好,不是單單靠我們這邊把一套完整的東西做完,也要靠合作夥伴的精耕細作。

我們現在很重要的一個方向,就是把在新領域探索的合作專案經驗和模式固化下來,這樣我們在初期的投入才是有價值的。

雷鋒網:現在你們的語音技術有一套固化下來的應用模式嗎?

陳一寧:我理解是每一個行業是不太一樣的。比如說像我們現在這種司法的領域,其中涉及到個整個數字法庭怎麼佈置、接入多少路的資料、資料更新、麥克風怎麼擺放,什麼樣的設備進行回聲消除、是否要有音量顯示......等等整個一套流程,這就是這個領域特有的模式。

初敏:對。其實是說從某種角度來說,就是要把它變成標準化的流程。除了語音辨識技術本身,同時可能要提供一些最基礎的一些工具,比如說麥克風音量的監測(音量太大或太小都是不行的)。因為在初期,我們的合作夥伴沒有相關經驗,所以我們有時候就是要多往前走一步,幫他們一下。比如有時候兩個麥克風特別近,或者現場一個喇叭就放在麥克風後面,這都是有問題的,那我們團隊就要現場去指導部署。合作夥伴能搞定兩個了,那之後複製一百個也沒問題了,但是頭兩個我們都會派人去幫它一起看。

雷鋒網:語音技術應用於具體的業務場景過程中,你們面臨了哪些阻礙?

初敏:把一個看似很高大上的技術成功應用,真的是有太多的細節問題要去解決。就像我們雲棲大會現場生成字幕,其實頭兩場雲棲大會,我們最害怕的是接線,線路接不對,就會有巨大的雜訊在裡面,那就太嚇人了。我記得有一次,就突然有電雜訊,最後還是請教音訊老師,只要把其中兩個線路插在一個電線板上,問題就解決了,但我們之前並不知道。

所以,我們這一年時間做下來,切身體會到,語音技術落地真的不是閉著眼睛就能做到的。一般技術提供商,會想當然地認為,我們有API和SDK,你接入就好了嘛,其實遠不是這麼回事兒(笑)。這個過程中,就是要把工作做細,積累成一個可以複製的模式。

陳一寧:之前我們擔心的很多問題,包括麥克風的選型、線路搭建、有沒有引入雜訊......這樣的一些落地的細節中都會有很多問題會產生。

其實這場雲棲大會的字幕,已經徹底是由供應商來做全部的事情了。以前的話,是我們團隊自己來做,所以就一場一場慢慢來,到今年雲棲大會的字幕、網上直播的字幕,已經都完全是由供應商來完成了,我們基本上就沒有參與了。

我們就怕技術是一個Demo,就是我能操作,但換一個人用就不行了。所以我們初期跟合作夥伴磨合,做好幾個具體專案後,後續讓他們自己完全掌控,這就是我們特別希望達到的一個狀態。

雷鋒網:陳一甯老師,您之前在演講中提到強定制化是阿裡的核心競爭力,能具體講講嗎?

陳一寧:語音技術的實現跟領域的相關性很高,它不像輸入法,做出來一個,到哪裡都能用。其實很多時候,你在一個領域裡做好了技術,到其它場景就不能用了。通用的語音技術是無法滿足客戶特定需求的,那麼我們會幫助他們去定制專屬於自己的語音引擎。比如我們的ET智慧語音系統正在逐漸對外開放,最簡單有熱詞的設置(這個已經開放了),更進一步的還可以接入自己的領域資料,這一點我們內部業務團隊已經在成熟地使用了,之後也會推廣給外部合作夥伴。

醫療領域和電商領域,肯定是不相關的,在知識上講,各自都有很多的詞彙。客戶在自己的領域都具有很多的知識和資訊,那麼客戶把包含特色資訊的文本輸入進來,由我們的機器來學習這些文本,識別率就會得到提升。

阿裡對於客戶資料的保護是非常嚴格的,有非常高等級的要求。除了各種ISO認證,內部還有很多嚴格的規定,是不能看使用者資料的。一般來說,各領域的知識,也通常不是敏感的資訊。但如果是某些行業的資料敏感度高,那麼我們也有專有雲來做相關的事情。

雷鋒網:初敏老師,您之前在演講中談到,對AI公司來說反覆運算的速度是非常重要的,為什麼?

初敏:其實一個學習的過程,簡單來講就是給一堆資料,然後從中學個模型出來。但是如果從一個場景資料換到另一個場景資料,你能夠多快學出來?

今天所有的機器學習裡,如果做的規模比較大,訓練過程是很慢的,有時幾天、幾星期都弄不好。通常小一點的企業,基本上都是按“月”來反覆運算的,都兩個月、三個月才完成一次完整的調試。幾十萬和幾千萬的樣本規模是很不一樣的。典型的語音辨識,如果是2千個小時的資料,只用一塊卡,可能需要好幾天才能反覆運算一次,那如果是2萬個小時的資料,基本上就不可行了。所以,很多的時候,底層的技術保障也是必須的。

我們現在要花很多時間做多機多卡,其實訓練模型在整個過程中間也只是非常小的一環,在整個鏈條裡只占三分之一的時間,剩下三分之二的時間就是在倒騰資料。比如我們今天,把資料存在某個地方,然後把它拿出來提升feature,然後還要做一輪預處理(例如語音辨識需要做傳統的HMM),這一套前期的工作可能比在GPU上進行深度學習訓練花費的時間還要多。實際上,反覆運算速度決定了你的進步速度,是讓A和B真正產生差別的地方。真正到大規模訓練和應用的時候,底層的基礎設施能力是非常非常重要的。所以今天高校研究就面臨很大的挑戰,就是因為當面臨大規模資料的時候,就會做不了,所以通常高校老師會做演算法本身的研究。

那我們現在希望把這個速度做到按“天”反覆運算。這當中就是主要是基於阿裡雲的雲計算平臺的優勢。我們從資料的存儲、處理,到不同階段在CPU、GPU上的打通,併發性比較好,所以才會比較快。

雷鋒網:AI行業裡有一個很經典的問題,就是現在大部分AI公司都是拿著錘子找釘子。你們如何解決找“釘子”(用戶需求)的問題?

初敏:阿裡整個的氛圍就是比較務實的。我覺AI技術在阿裡比較容易成功落地,是因為我們比較幸運地可以借助很多外力。首先就是有非常多的業務場景,這個是別人很難得到的,往往得到其中一個就很難,而我們手裡有8至10個非常好的業務場景。你的技術只有在真正用的時候才能打磨,最終做到真正好用。所以這就是我們覺得很興奮的地方,就像一寧昨天晚上工作到2點才休息,其實我們團隊很多人真的每天都是這麼拼的。因為你有很多的業務場景,只要你有能力,你都可以去做。

我們不是到處要找“釘子”,而是“釘子”堆上來了,就看你搞不搞的定。所以我們始終處在一個超級興奮的過程中,恨不得每天多做點事兒(笑)。再有一個就是,阿裡雲這些非常好的基礎設施,使得我們在起步的時候,門檻就低很多。

所以雖然我們只有幾十個人,但我們做了很多事情。當然,這些事情也並不全是我們自己做的,我們在內部有很多合作夥伴,特別是工程落地方面,內部業務都是合作夥伴做的。所以我覺的特別幸運,就是你有場景、有資料、有很好的計算平臺,還有特別多的合作夥伴一起做事情,我覺得這是我們特別有優勢的地方。

雷鋒網:如何看待以亞馬遜Alexa為代表的語音助手,它們會成為取代手機的下一代的入口載體嗎?

初敏:取代手機是不太可能。無論是什麼入口,最終的大目標是一致的:為了獲取網上或雲上的資訊。有時候手機觸摸交互就很方便,那如果我在做飯,也許一個語音交互的冰箱就更合適。在不同的場景中,會用到不同的端。

我認為,未來並不是每一個家電設備都要具有接入語音的能力,一個場景裡有一個主導設備(Hub)就可以了,可能是音響、Wifi設備或電視等等,並沒有太本質的區別。無非就是有沒有麥克風和揚聲器,有沒有攝像頭,最理想的狀態就是能跟別的設備都連在一起,那家居的資料聯通問題,就是我們IoT的團隊在做,在慢慢嘗試做一個接入體系。

那到底是哪類家居會成為它所在場景裡的Hub,我覺的目前這個是不明確的,大家都在嘗試階段。

雷鋒網:2016年你們主要做了什麼工作?2017年主要的目標是什麼?

陳一寧:2016年最主要的事情,就是我們從零開始,對外提供產品化的語音技術。這讓我們真正意識到,我們的技術確實能夠幫助到戶,這非常令人振奮。

未來一段時間,我們更多的是希望跟合作夥伴的業務結合,把已有的合作樣例變成成熟的解決方案,推廣給更多的客戶,這是我們今年著重關注的事情。

初敏:過去一段時間,我覺得我們跑的非常快。在別的企業裡頭,可能花了十年時間積攢的技術,我們2年就做出來了,技術本身的反覆運算非常快。

我們並不是在追求技術的“高大上”,而是希望把技術做好,最終能落地。那麼一寧的團隊沖在最前面,我們的團隊比較在後方一些。語音這個技術,到底能怎麼用,過去大家一想,就說“個人助理”。但今天我們看到了,遠遠不止這麼一個用途。我們所有的市場,都不是存量市場,都需要去開拓。

我們的團隊成員很多是做研究出身的,我們就有一個特別大的夢想,就是把這個技術做到真正可以使用。過去這一年,真的是讓我們看到這個夢想實現的希望,這條路越開越寬,這是我覺得特別興奮的。

Next Article
喜欢就按个赞吧!!!
点击关闭提示