您的位置:首頁>科技>正文

首發 | 阿裡iDST總監初敏加盟思必馳,將建立北京研發團隊(附專訪)

雷鋒網消息, 8月28日, 智慧語音交互技術公司思必馳宣佈, 阿裡iDST總監初敏博士加入思必馳, 擔任思必馳VP、思必馳北京研發院院長, 拓展語音技術在物聯網外的新業務、新場景的落地。

初敏原來的團隊交給了阿裡 iDST 語音組總監鄢志傑管理, “他很能幹的”。

在接受雷鋒網專訪時, 初敏表示自己選擇加入思必馳的原因主要是, “對人工智慧特別是語音交互的未來的觀點”和後者很一致, 而且創業公司可以做到十分專注。

加入思必馳後, 初敏將領導建立思必馳北京研發院, 初期目標是在一年左右建立50人的團隊,

二年達到100人的規模。 研發院不僅將進行基礎技術的研究, 也將探索語音在更多場景裡的應用。

關於初敏博士

初敏是中科院聲學所博士, 主要研究方向覆蓋語音辨識與合成、自然語言處理、機器學習和資料採擷、大資料處理和計算等, 在相關領域發表了近百篇學術論文並取得20多項國內外專利。

2000年, 初敏博士加入微軟, 在微軟亞洲研究院從事科學研究近10年, 創建並領導語音合成研究小組, 研製出了第一個中英文雙語語音合成系統“木蘭”;

2009年入職阿裡巴巴, 擔任阿裡iDST智慧語音交互方向負責人, 使Yun OS、支付寶、手機淘寶、釘釘等產品具備語音交互能力;

2017年加入思必馳, 擔任思必馳VP、思必馳北京研發院院長, 拓展語音技術在物聯網外的新業務、新場景的落地。

以下為採訪實錄, 雷鋒網作了不改變原意的刪減。

雷鋒網:為什麼離開阿裡加入思必馳?

初敏:其實我跟老高(高始興)和俞凱很早以前就認識了, 但是沒有聊這方面的事。 在阿裡八年, 感覺也是時候迎接一些新的變化和挑戰,

陸續收到很多大公司的橄欖枝, 恰巧最近有些機會和老高深聊, 我覺得我們對人工智慧特別是語音交互的未來的觀點其實蠻一致的。

未來的3到5年是一個AI技術實用化成型的過程, 是我們的一個共識。 跟俞凱也談了很多技術, 包括深度學習怎麼在自然語言中去更好的應用, 怎麼能讓機器更快地從人這裡學習。 我覺得蠻談得來的, 有很多共識做事會很方便, 這是一個很重要的原因。

阿裡的團隊是我建起來的, 團隊來說我們是一個相當好的團隊。 公司大有大量的好處, 比如資金更充足資源更豐富一些, 資料、計算能力這種技術環境會更好, 但是思必馳專注只做一件事情的公司, 這對我來講是有吸引力的。

其實也跟朋友聊是不是要創業,

我覺得自己還沒有這個勇氣自己去創業, 哈哈, 這個過程太痛苦了。

但是加入一個思必馳這樣在創業過程的公司, 對我來說逃避了最開頭的那一段, 希望通過我的加入能幫助這家公司更快地成長。

雷鋒網:加入思必馳後, 對於將來的工作有什麼樣的規劃?

初敏:因為其實就是這兩天的事情。 我們希望做的事情是, 原來思必馳基本上的團隊是在蘇州, 至少技術團隊是, 北京這邊幾乎沒有技術人員, 但是其實北京是人才最豐富的地方, 所以我會在北京建立一個北京的研發院。

這個研發院會做一些核心技術的研發, 也會做一些工程上的, 包括真正在應用場景中的一些落地。 不只是把原來的東西做得更精細,

而是開闢出更多新場景, 使整個語音交互為核心的技術能有更強更多的輻射面。

我們這些做技術出身的人, 就是希望自己做的技術真的被很多人用, 這是最大的成功。 掙多少錢是附帶的, 因為這個過程中不掙錢的話做不到那一步, 只要能做到那步一定能掙到錢。 但是最大的是自我的成就感, 一定是來自於很多人用而且感覺很好。

雷鋒網:關於北京團隊的規劃您現在有比較詳細的一些想法嗎?

初敏:在規劃之中, 主要思路是主要以研發人員為主, 核心技術以及工程落地的, 以後可能會有一些業務落地的。

希望在一年左右能招到50人左右, 兩年左右可能是一百人的規模。

細的東西還要更細緻地做工作以後才能把詳細計畫落實, 但是現在開始我們也開始在招聘,包括北京新的HR開始要招募了。因為原來都是蘇州整個管掉,現在也會在這配套。

雷鋒網:語音辨識公司現在是不是到了拼市場份額,合作案例經驗積累的時候了,研究上的進步只是錦上添花,不起決定作用?

初敏:我們建立的團隊不是一個純研究的團隊。今天我覺得中國所有的團隊都不是一個像以前在微軟MSRA一樣的研究團隊,包括iDST也不是。

北京的團隊我稱之為研發,有研究的成員,但最終一定是開發成一個完整的東西,然後這個東西是可以用的。

你剛才說的這個,我有非常多的實踐經驗,特別是在過去這幾年碰到了很多用戶的實際問題,的確是這樣子的。但是也不能說技術就是錦上添花,而是說這兩個腿都不能短。一個是核心技術的研發,一個是所謂的工程導向或者是產品導向。總而言之,要把產品使用者體驗做到完備兩個都必須有。

我們在兩塊都會做,思必馳不是定位在產業鏈條的某一個環節,而是希望至少把語音交互這個完整場景做出來,包含了鏈條中的每個環節。

因為這個過程是相輔相成的,過程有好多環節,這些環節是個鏈條,只要有一個鏈條出問題,最後的用戶體驗就會很差。所以要把整個鏈條閉合,從核心技術到平臺到產品一直到使用者體驗。

鏈條上的基礎建設,好多都是核心技術,比如語音辨識本身深度學習的建模技術可以做到更好。

但是下一個問題是如果資料是在A場景採集的,拿到B場景不好了,模型換成B場景可能不太好了,那麼要多快,用什麼樣的資料規模,多長時間把它帶過去,這時候會有一個困難的轉移過程。可以從頭到尾訓,也可以做Transfer Learning,這個就是比核心技術了。

但是話又說回來,最終還是需要一個鏈條。最後希望達到的是,客戶給我上傳,比如說多少多少小時的一個標準資料,我很快就得到一個模型,那在他這個地方就好了。所以實際上是場景的適應能力,解決一些這樣的問題,最終才能大規模的把這個技術鋪開。

我在這邊也會去搭建這種基礎設施,核心實力我認為就是快。對於核心實力我一直認為,特別是在今天這種所謂的大資料時代,資料很多(理論上很多,但實際上分散在不同領域)。要把資料管理好,把不同場景的資料更好地用起來,包括在一個新的場景中用起來。這裡就有核心演算法的的提升空間了,也有很多工程上要把這件事情做順暢的方面。

還是剛才說的,這兩個腿都做起來,反覆運算效率快,那你將來去實施就很快,才真正具備商業化的能力,要不然都是A項目B項目C項目,做一個項目花的成本差不多,那就很辛苦。

我們要做到的是,做第一個項目,比如花費是1,第二個項目花費可能是0.5,第三個項目花費就是0.3了,以後可能每一個項目生成就是花個0.1、0.15的代價,甚至做到更低,這時候才能從一個到一百個或者到幾百個。

磨就是這個過程。每複製一次,成本都下降,實現規模化,最終產生經濟效益。

雷鋒網:對於場景落地這塊您有什麼規劃嗎?

初敏:思必馳在一些現有的地方還是蠻強的,比如在汽車,特別是後裝,還有智慧家居包括音箱,其實好多家用的都是我們的解決方案。

我希望我進來不是在這些地方添點磚加點瓦,而是會試圖去探索一些新場景,現在有很多可能性,是什麼今天還沒有完全弄清楚。所以會從招聘開始,和底層一些技術建設,場景還是要慢慢看的,沒有那麼快,但是一定會去探索更多的,我相信是很多的。

雷鋒網:有沒有想法做一個消費品牌?

初敏:目前還沒有,原因也比較清晰,就是實際上這個鏈條很長,如果我們什麼都做了,很有可能做不好。而且做了這個端實際上和別的端是競爭的關係,所以今天我覺得可能不會往實際產品做,但是也不排除自己去做一兩個demo,更好地展示技術。

雷鋒網:您怎麼看現在火爆的智慧音箱?

初敏:我覺得蠻有爭議的,不是特別看好。首先,我覺得Echo是不是真的叫成功,就是看你怎麼定義成功,如果從品牌、影響的角度來看,是挺成功的,因為它利用了這整個潮流,出了影響,一堆人跟著做。

但是我也跟有些人聊過,實際上它的粘性並不見得好,大家因好玩新鮮,所以買了一個回家,但是有多少人在買回家三個月後還在天天用,很少。換句話說這個音箱是不是真的解決了問題,變成一個必需品,這個問題沒有看到。

美國市場和中國市場也不太一樣,美國市場大概只聽到這兩個(Echo和Google Home)。中國沒有這樣的領導產品,一堆公司在做。中國今天最大的問題還是沒解決核心問題,很多人只是買它來玩一下,知道它能幹啥,之後可能就沒興趣了,真的有什麼事總找音箱做的很少。

有幾個原因,一是他上頭能幹的事情真的太少了,一個東西必須讓我覺得能信賴他,至少一類事情我持續找它,它都能做,對這我才會養成習慣。所以我覺得這不光是語音技術的問題了,是背後他到底能幹什麼事。今天還大家還稱之為音箱,那就是聽音樂,那顯然這樣子的音箱聽音樂都不是最好的選擇,就是大幾百塊錢的音箱,也不是好到哪裡的。

Echo稍微好一點,接入了很多控制功能,美國人房子大,在樓上關下樓下的燈什麼的,這種需求可能還稍微強一點,在中國沒有這麼強,當然從某種角度講還是存在的。

所以我覺得最後的爭論不是技術問題,不是說語音辨識准不准(當然它也有問題),是說它能聽懂的話,我想幹的事情裡他能做多少,這是我覺得最關鍵的。

雷鋒網:這幾年智慧語音交互借著新的AI技術實現了快速的發展,不過前段時間也看到一些觀點,說深度學習正遇到瓶頸。所以想問,您認為語音辨識、NLP這塊,在接下來幾年技術上會有怎樣的發展,是否會遇到瓶頸?

初敏:深度學習到今天雖然已經很火了,好像已經到處都是了,一般相關的學術會議可能至少一半或者更高的論文都和它相關。但是我今天的觀點是還沒有到飽和期,技術的替代是一個過程。就像語音辨識從深度學習獲得的第一步成功,是在原有的HMM框架後加了一塊,把原來的模型提升了。

所以這個(技術替代)過程中還是有很多嘗試可以做的。語音現在的這套統計的深度學習框架,不是一個完全的理論推導的技術,是有個基本的理論框架,最後它是否work,是靠實驗來做的。

包括它們的拓撲結構,建模單元的大小,因為起步都是依賴原來那套體系,所以後續能做的事情還有很多,比如變一變建模單元。會慢慢的把原來的那些東西換掉,然後去嘗試新的東西,像現在很多新的模型其實就是在改變單元,因為單元一大解碼速度就快很多。

另外一方面是場景適應,傳統我們叫它adaptation,或者你也可以叫它Transfer Learning,這塊也可以嘗試不同的方法。

還有,語音裡頭現在更多是聲學模型上用了深度學習,語言模型上有嘗試,但沒有特別的成功,因為語言模型計算複雜度高。但是今天雞肋並不證明這個方法不對,而是還沒有做出最好的方法,這一部分也有很多人在嘗試。所以我覺得至少還有個五年、十年的空間它才會飽和。

但是,也不排除在這個過程中會長出新的分支,比這個看起來還更優秀,那也是有可能的,特別是在自然語言上,我覺得空間更大。

我覺得自然語言處理還處於非常早期的階段。語音的識別很難,但是他是一個定義非常清晰的問題,進去這段錄音出來就是這個字,沒有二義性,所以是最適合學習。自然語言是問題沒定義清楚,你可以這樣定義問題,把它定一個分類問題,也可以把它變成一個序列轉換問題,而且一個任務是由好多小問題組成,還是作為一個整體。所以在自然語言裡還需要想怎麼更好地使用深度學習,包括可能需要引入強化學習的概念,那麼要怎麼引入?

比如強化學習裡一直擔心什麼是reward,怎麼定義成功失敗,有很多這些問題。這塊明顯的還能走更長,包括問題怎麼定義法,以前分的小問題是不是可以用一個問題就能解等,這些地方我覺得有很多可嘗試的空間。

但是現在開始我們也開始在招聘,包括北京新的HR開始要招募了。因為原來都是蘇州整個管掉,現在也會在這配套。

雷鋒網:語音辨識公司現在是不是到了拼市場份額,合作案例經驗積累的時候了,研究上的進步只是錦上添花,不起決定作用?

初敏:我們建立的團隊不是一個純研究的團隊。今天我覺得中國所有的團隊都不是一個像以前在微軟MSRA一樣的研究團隊,包括iDST也不是。

北京的團隊我稱之為研發,有研究的成員,但最終一定是開發成一個完整的東西,然後這個東西是可以用的。

你剛才說的這個,我有非常多的實踐經驗,特別是在過去這幾年碰到了很多用戶的實際問題,的確是這樣子的。但是也不能說技術就是錦上添花,而是說這兩個腿都不能短。一個是核心技術的研發,一個是所謂的工程導向或者是產品導向。總而言之,要把產品使用者體驗做到完備兩個都必須有。

我們在兩塊都會做,思必馳不是定位在產業鏈條的某一個環節,而是希望至少把語音交互這個完整場景做出來,包含了鏈條中的每個環節。

因為這個過程是相輔相成的,過程有好多環節,這些環節是個鏈條,只要有一個鏈條出問題,最後的用戶體驗就會很差。所以要把整個鏈條閉合,從核心技術到平臺到產品一直到使用者體驗。

鏈條上的基礎建設,好多都是核心技術,比如語音辨識本身深度學習的建模技術可以做到更好。

但是下一個問題是如果資料是在A場景採集的,拿到B場景不好了,模型換成B場景可能不太好了,那麼要多快,用什麼樣的資料規模,多長時間把它帶過去,這時候會有一個困難的轉移過程。可以從頭到尾訓,也可以做Transfer Learning,這個就是比核心技術了。

但是話又說回來,最終還是需要一個鏈條。最後希望達到的是,客戶給我上傳,比如說多少多少小時的一個標準資料,我很快就得到一個模型,那在他這個地方就好了。所以實際上是場景的適應能力,解決一些這樣的問題,最終才能大規模的把這個技術鋪開。

我在這邊也會去搭建這種基礎設施,核心實力我認為就是快。對於核心實力我一直認為,特別是在今天這種所謂的大資料時代,資料很多(理論上很多,但實際上分散在不同領域)。要把資料管理好,把不同場景的資料更好地用起來,包括在一個新的場景中用起來。這裡就有核心演算法的的提升空間了,也有很多工程上要把這件事情做順暢的方面。

還是剛才說的,這兩個腿都做起來,反覆運算效率快,那你將來去實施就很快,才真正具備商業化的能力,要不然都是A項目B項目C項目,做一個項目花的成本差不多,那就很辛苦。

我們要做到的是,做第一個項目,比如花費是1,第二個項目花費可能是0.5,第三個項目花費就是0.3了,以後可能每一個項目生成就是花個0.1、0.15的代價,甚至做到更低,這時候才能從一個到一百個或者到幾百個。

磨就是這個過程。每複製一次,成本都下降,實現規模化,最終產生經濟效益。

雷鋒網:對於場景落地這塊您有什麼規劃嗎?

初敏:思必馳在一些現有的地方還是蠻強的,比如在汽車,特別是後裝,還有智慧家居包括音箱,其實好多家用的都是我們的解決方案。

我希望我進來不是在這些地方添點磚加點瓦,而是會試圖去探索一些新場景,現在有很多可能性,是什麼今天還沒有完全弄清楚。所以會從招聘開始,和底層一些技術建設,場景還是要慢慢看的,沒有那麼快,但是一定會去探索更多的,我相信是很多的。

雷鋒網:有沒有想法做一個消費品牌?

初敏:目前還沒有,原因也比較清晰,就是實際上這個鏈條很長,如果我們什麼都做了,很有可能做不好。而且做了這個端實際上和別的端是競爭的關係,所以今天我覺得可能不會往實際產品做,但是也不排除自己去做一兩個demo,更好地展示技術。

雷鋒網:您怎麼看現在火爆的智慧音箱?

初敏:我覺得蠻有爭議的,不是特別看好。首先,我覺得Echo是不是真的叫成功,就是看你怎麼定義成功,如果從品牌、影響的角度來看,是挺成功的,因為它利用了這整個潮流,出了影響,一堆人跟著做。

但是我也跟有些人聊過,實際上它的粘性並不見得好,大家因好玩新鮮,所以買了一個回家,但是有多少人在買回家三個月後還在天天用,很少。換句話說這個音箱是不是真的解決了問題,變成一個必需品,這個問題沒有看到。

美國市場和中國市場也不太一樣,美國市場大概只聽到這兩個(Echo和Google Home)。中國沒有這樣的領導產品,一堆公司在做。中國今天最大的問題還是沒解決核心問題,很多人只是買它來玩一下,知道它能幹啥,之後可能就沒興趣了,真的有什麼事總找音箱做的很少。

有幾個原因,一是他上頭能幹的事情真的太少了,一個東西必須讓我覺得能信賴他,至少一類事情我持續找它,它都能做,對這我才會養成習慣。所以我覺得這不光是語音技術的問題了,是背後他到底能幹什麼事。今天還大家還稱之為音箱,那就是聽音樂,那顯然這樣子的音箱聽音樂都不是最好的選擇,就是大幾百塊錢的音箱,也不是好到哪裡的。

Echo稍微好一點,接入了很多控制功能,美國人房子大,在樓上關下樓下的燈什麼的,這種需求可能還稍微強一點,在中國沒有這麼強,當然從某種角度講還是存在的。

所以我覺得最後的爭論不是技術問題,不是說語音辨識准不准(當然它也有問題),是說它能聽懂的話,我想幹的事情裡他能做多少,這是我覺得最關鍵的。

雷鋒網:這幾年智慧語音交互借著新的AI技術實現了快速的發展,不過前段時間也看到一些觀點,說深度學習正遇到瓶頸。所以想問,您認為語音辨識、NLP這塊,在接下來幾年技術上會有怎樣的發展,是否會遇到瓶頸?

初敏:深度學習到今天雖然已經很火了,好像已經到處都是了,一般相關的學術會議可能至少一半或者更高的論文都和它相關。但是我今天的觀點是還沒有到飽和期,技術的替代是一個過程。就像語音辨識從深度學習獲得的第一步成功,是在原有的HMM框架後加了一塊,把原來的模型提升了。

所以這個(技術替代)過程中還是有很多嘗試可以做的。語音現在的這套統計的深度學習框架,不是一個完全的理論推導的技術,是有個基本的理論框架,最後它是否work,是靠實驗來做的。

包括它們的拓撲結構,建模單元的大小,因為起步都是依賴原來那套體系,所以後續能做的事情還有很多,比如變一變建模單元。會慢慢的把原來的那些東西換掉,然後去嘗試新的東西,像現在很多新的模型其實就是在改變單元,因為單元一大解碼速度就快很多。

另外一方面是場景適應,傳統我們叫它adaptation,或者你也可以叫它Transfer Learning,這塊也可以嘗試不同的方法。

還有,語音裡頭現在更多是聲學模型上用了深度學習,語言模型上有嘗試,但沒有特別的成功,因為語言模型計算複雜度高。但是今天雞肋並不證明這個方法不對,而是還沒有做出最好的方法,這一部分也有很多人在嘗試。所以我覺得至少還有個五年、十年的空間它才會飽和。

但是,也不排除在這個過程中會長出新的分支,比這個看起來還更優秀,那也是有可能的,特別是在自然語言上,我覺得空間更大。

我覺得自然語言處理還處於非常早期的階段。語音的識別很難,但是他是一個定義非常清晰的問題,進去這段錄音出來就是這個字,沒有二義性,所以是最適合學習。自然語言是問題沒定義清楚,你可以這樣定義問題,把它定一個分類問題,也可以把它變成一個序列轉換問題,而且一個任務是由好多小問題組成,還是作為一個整體。所以在自然語言裡還需要想怎麼更好地使用深度學習,包括可能需要引入強化學習的概念,那麼要怎麼引入?

比如強化學習裡一直擔心什麼是reward,怎麼定義成功失敗,有很多這些問題。這塊明顯的還能走更長,包括問題怎麼定義法,以前分的小問題是不是可以用一個問題就能解等,這些地方我覺得有很多可嘗試的空間。

Next Article
喜欢就按个赞吧!!!
点击关闭提示