您的位置:首頁>科技>正文

傅盛All

智東西 文 | 寓揚

獵豹移動CEO傅盛曾談到, 2016年是特別艱難的一年, 他稱“移動互聯網的上半場結束了”, 並且這很快就會發生。 而作為一家移動互聯網工具和內容提供者, 獵豹移動又將何去何從?

傅盛給出的答案是AI, 是機器人。 在2016獵豹CONNECT大會現場, 傅盛就曾表述, 將成立機器人公司, 傾家蕩產也要進軍人工智慧領域。 而這家傅盛押注未來的人工智慧公司就是獵戶星空, 去年獵豹移動又為其投資4000萬美元, 助力其在AI領域的研發和技術落地。

但這家公司又顯的十分低調, 小雅AI音箱語音技術提供商、TTS做的不錯、人臉識別技術獲過獎,

這是智東西對獵戶星空的直觀印象, 除此之外這家公司到底做什麼?核心技術是什麼?團隊規模、構成怎樣?在整個獵豹體系中是什麼地位?我們都不得而知。

(獵戶星空首席科學家閔可銳)

近期, 智東西和獵戶星空首席科學家閔可銳展開對話,

看看歷時一年, 傅盛押注未來的這家AI公司究竟做了什麼?

一、三大業務:語音、視覺、硬體

獵戶星空是獵豹移動旗下的AI公司, 創立於2016年9月。 公司初創團隊來自穀歌、微軟、英特爾、國內的BAT等公司, 博士占比接近五成, 可以說是一家技術導向性很強的公司了。 經過一年左右的發展, 目前獵戶星空團隊的規模已經達到200人左右。

獵戶星空的主要業務大體可分為三塊, 分別圍繞語音、視覺和硬體展開。 第一塊業務是圍繞語音打造的一整套語音交互技術, 這塊業務占了約一半左右的員工, 是獵戶星空占比最大的業務。

閔可銳談到, 圍繞語音交互, 獵戶星空打造了一整套的技術, 包括從前端信號處理到喚醒、語音辨識到自然語言處理再到語音合成,

它都有專門的團隊在做。 比如喜馬拉雅的小雅AI音箱使用的就是這一整套技術, 小米AI音箱、小米電視等都使用了獵戶星空的語音合成以及遠場語音辨識技術。

第二塊主要業務是視覺, 目前圍繞圖像識別和人臉識別展開,

並將相關技術進行落地。 比如獵豹內部使用的人臉打卡就使用它的人臉識別技術。 獵戶星空也在和獵豹旗下直播社交產品展開合作, 如在國外的直播軟體Live.me中, 做直播審核相關的監測, 也在合作做一些手勢檢測的技術。

第三塊則是硬體, 但目前獵戶星空還並未推出硬體。 “現在所謂的智慧硬體, 聲音也好, 視覺也好, 感知也好, 其實可以做到更加一體化”, 閔可銳談到。 可見獵戶星空的硬體團隊也在積極備戰中, 預計下一階段也會圍繞視覺、語音推出一些硬體產品來。

二、從喚醒到NLP, 專注全鏈語音交互技術

在語音交互方面, 獵戶星空打造了從前端信號處理、喚醒、語音辨識、自然語言處理到語音合成一整套語音交互技術,

與行業中專攻某一領域技術的創業公司相比, 獵戶星空又是否有優勢?

閔可銳談到, 一方面在每一塊具體技術上, 獵戶星空都有專門團隊在做, 因此在這個鏈條的每一塊都有積累。 另一方面, 獵戶星空更加看重用戶的交互體驗, 一旦這個鏈條的某一環節出現問題, 給用戶的整個交互體驗都是很差的, 這需要更多的從整個鏈條上去打磨技術。

比如, 在小雅音箱的語音交互中, 獵戶星空不但在每一塊技術都有相應模型指標跟蹤, 而且還會針對小雅音箱評測端到端的感知, 進而從整體優化技術。 “比如業內同行可以在語音辨識上達到95%左右的準確率, 但是我們通過後面自然語言處理模組, 可以做很多糾錯工作, 這樣就可以提升三到四個百分點的正確率, 用戶的體驗就會更好”,閔可銳談到。

目前,獵戶星空也在嘗試一些模型, 比如把語音辨識以及後續的自然語言做成一個端到端的訓練。這相當於不用先聽一遍語音得到文字,然後再通過自然語言糾錯做第二個處理,可以將這幾個模組結合在一起,做一個更加端到端的解決方案,從而減少中間過程的損耗。

傳統語音辨識和語義理解是兩撥人在做,但獵戶星空兩個團隊對前後端技術都有積累和構建的能力,這樣做的優勢就是在優化端到端模型的時候能夠以使用者可感知的正確性為目標。而像單純的語音辨識或者語義理解的準確性用戶是難以感知的。“但使用者真正關心的是發起指令後最終的準確率,通過深度神經網路技術,讓很多特徵可以被自動提取,反而端到端的解決方案能夠達到更好的效果”,閔可銳表示。

目前很多智慧硬體產品在語音交互上,都是採用多家技術共同完成,從拾音到語音辨識再到語義理解,如果每一塊都採用不同廠商的技術,那麼模型之間的適配性就是一個問題,更不要說通過整個語音鏈條上後方的技術來優化前方的技術了。而獵戶星空從整個語音交互鏈條出發,或許提供了一種不錯的優化使用者體驗的方式。

此外,閔可銳也談到,儘管獵戶星空是一家技術導向的公司, 但是其技術的產品性也很強,更加注重落地到場景和產品中。通過對產品形態和場景的定義,技術也能夠更好的落地。這也正符合傅盛一直談到的“通過技術和產品落地的結合來打造用戶體驗”。

三、上百聲優打造“鄰家女孩聲”

從小雅AI音箱再到小米AI音箱,都使用了獵戶星空提供語音合成技術,其溫柔的女聲也收到很多人的歡迎。

閔可銳談到,市面上有一些標準化的解決方案,許多產品不考慮使用者的感知體驗,往往直接拿來使用。但是獵戶星空從產品端認為聲音是影響用戶體驗很重要的一個場景,相當於移動APP的介面,因此在語音合成上花了很多功夫。

首先在人聲選型上,他們面試了上百個聲優,選擇音質有特色且符合產品定位的聲優進行簽約,並在錄音棚搜集大量的聲音,通過技術加工以及資料精標,打造而成的。所以大家覺得可辨識度較高,聲音的親和度也比較大。

(小雅AI音箱)

而在自然語言處理上(NLP),傳統NLP是一個多分類的問題,這依賴資來源資料的分類,需要把前一個階段執行的非常正確。分層次做的好處是簡化問題,但是一旦前面一個階段出現問題,後面一個階段就很難識別用戶的意圖。

獵戶星空在NLP上的第一個版本用的就是這套邏輯,而目前他們在做新模型抽取的時候,會把資來源資料結合模型資料放在一起考慮。這裡採用的模型是更加複雜的結構化的方法。所謂的結構化,比如使用者說的一句話是有結構的,主謂賓的語法對這個結構形成了比較強的限制。此方法仍然屬於判別模型,不過帶有更複雜的結構,通過模型建模這些結構之間的依賴關係,達到一個更高的準確率。

此外,猶豫發問和模糊搜索也是獵戶星空的兩個亮點。傳統NLP的資料處理往往是一個比較正式的文本,但對於使用者的口語資料而言,就必須要處理非正常的情況,比如使用者說話中主謂賓缺失怎麼辦?用戶說了一半“嗯”半秒怎麼處理?對前面內容做了修改怎麼辦?獵戶星空可以通過機器學習的統計,從而在上下文的基礎上判定用戶是否說完了。

而在模糊搜索上,傳統的NLP則假設語音辨識準確的基礎上去搜,但是如果用戶發來的語音辨識結果是錯誤的,那麼可能最終的結果也是錯誤的。這也是為什麼獵戶星空要做更端到端的方案,減弱中間過程的損耗。

通過模糊搜索,比如用戶點的歌名在資料庫中不存在,但是聲音非常相近的一首歌是存在的,再通過用戶高頻點歌的習慣以及喜歡聽歌的習慣,是能夠猜出用戶點的是哪首歌的,獵戶星空在這方面也做了很多的優化。

閔可銳也談到,更有挑戰的是對有聲資源內容的模糊搜索,因為很多有聲資源名字起得很長,使用者能夠記得的只是關鍵字,這就需要在技術上做更多的模糊和容錯。

四、獵戶星空與獵豹體系的姻緣

獵戶星空是獵豹移動旗下的人工智慧公司,關於獵戶星空的定位以及在整個獵豹體系中是一種怎樣的存在,一直也是我們存在的一個疑問,我們也從閔可銳這裡尋找到了答案。

大體而言,機器人,是獵戶星空的主要方向。當然這個“機器人”是一個大品類的機器人,也包括現在的智慧音箱,它構建了機器人完整的語音語義能力。未來,獵戶星空也會將視覺應用其中, 構建更加一體化的機器人。而這也符合傅盛所談的人工智慧的破局點在於產品和應用的結合,真正的AI不應該僅僅有技術,而是真正和我們的生活結合起來的產品。

對於獵戶星空和獵豹而言,雙方更像是一種互補的迴圈。首先獵豹為其提供資金支持,並且獵豹旗下的產品也為其AI技術的落地提供了場景。獵戶星空也將自己的技術賦能到獵豹體系的產品中,説明他們去優化服務以及產品體驗,並通過使用者資料來反覆運算技術。

成長在獵豹體系中的獵戶星空,不必像其他AI創企一樣為融資發愁,也不需要為了生存去佈局暫時的技術落地,傅盛及獵豹也給了它相對寬鬆的空間,短期內不必為盈利而考慮過多。

在獵豹體系中,獵戶星空更專注於技術研發,儘管它也做技術落地,但相較於對產品化更有經驗的獵豹而言,將更多AI技術落地到產品和場景的任務則落到了獵豹身上。

五、通用NLP成行業最大挑戰

當談到國內整個語音交互行業的進展時,閔可銳表示才剛剛起來,通用NLP的挑戰還很大。現在都是限定在具體的場景中去做,這樣能夠保證大多數交互可用,比如點歌用戶的滿意度就可以達到90%以上。

但就通用NLP而言,世界知識模型的建立是很困難的,而這是實現通用智慧很重要的一步。比如“小明打傷了小紅,他被送到了醫院,他被員警帶走了”,我們人很容易理解誰是誰,但是機器則很難辨別,因為它沒有常識。

閔可銳談到,小雅AI音箱發佈後的這三個月,在NLP方面的準確率也上漲了五到七個百分點。這一方面通過用戶使用來反覆運算技術,架構上也在做新的嘗試。另一方面通過用戶使用習慣挖掘出經常出錯的點,然後在演算法模型上進行彌補。

此外,他還談到了行業中一些更具體更產品化的問題。比如兒童的語音辨識準確率不高,一方面源于兒童的口音以及發音方法不同,更重要的是行業對兒童的資料搜集有限。另外,很多兒童玩具設備都受限於電池,能不能將識別能力做到更低功耗等都是當下的問題。

結語:智能音箱戰火將燃向何方?

關於今年異常火熱的智慧音箱,但銷量資料好像並不樂觀。閔可銳還是看好智慧音箱市場,他認為一定程度上智慧音箱確實可以落地,存在可用的場景,並且出貨量也在快速增長,通過用戶對智慧音箱的交互時長可以看出是遠高於很多內容APP的。

可以看出,成立剛一年的獵戶星空已經打磨出了一條完整的語音交互技術,而在視覺方面也在積極探索人臉識別等技術,在語音和視覺這兩個領域取得了一定的成果,並且也在和獵豹體系中的其他產品進行互動,相互促進。

但正如傅盛所言,這個全新的行業才剛剛開始,大家都處於同一起跑線上,獵戶星空能否實現傅盛的AI夢,最終還需要交給市場來評判。

用戶的體驗就會更好”,閔可銳談到。

目前,獵戶星空也在嘗試一些模型, 比如把語音辨識以及後續的自然語言做成一個端到端的訓練。這相當於不用先聽一遍語音得到文字,然後再通過自然語言糾錯做第二個處理,可以將這幾個模組結合在一起,做一個更加端到端的解決方案,從而減少中間過程的損耗。

傳統語音辨識和語義理解是兩撥人在做,但獵戶星空兩個團隊對前後端技術都有積累和構建的能力,這樣做的優勢就是在優化端到端模型的時候能夠以使用者可感知的正確性為目標。而像單純的語音辨識或者語義理解的準確性用戶是難以感知的。“但使用者真正關心的是發起指令後最終的準確率,通過深度神經網路技術,讓很多特徵可以被自動提取,反而端到端的解決方案能夠達到更好的效果”,閔可銳表示。

目前很多智慧硬體產品在語音交互上,都是採用多家技術共同完成,從拾音到語音辨識再到語義理解,如果每一塊都採用不同廠商的技術,那麼模型之間的適配性就是一個問題,更不要說通過整個語音鏈條上後方的技術來優化前方的技術了。而獵戶星空從整個語音交互鏈條出發,或許提供了一種不錯的優化使用者體驗的方式。

此外,閔可銳也談到,儘管獵戶星空是一家技術導向的公司, 但是其技術的產品性也很強,更加注重落地到場景和產品中。通過對產品形態和場景的定義,技術也能夠更好的落地。這也正符合傅盛一直談到的“通過技術和產品落地的結合來打造用戶體驗”。

三、上百聲優打造“鄰家女孩聲”

從小雅AI音箱再到小米AI音箱,都使用了獵戶星空提供語音合成技術,其溫柔的女聲也收到很多人的歡迎。

閔可銳談到,市面上有一些標準化的解決方案,許多產品不考慮使用者的感知體驗,往往直接拿來使用。但是獵戶星空從產品端認為聲音是影響用戶體驗很重要的一個場景,相當於移動APP的介面,因此在語音合成上花了很多功夫。

首先在人聲選型上,他們面試了上百個聲優,選擇音質有特色且符合產品定位的聲優進行簽約,並在錄音棚搜集大量的聲音,通過技術加工以及資料精標,打造而成的。所以大家覺得可辨識度較高,聲音的親和度也比較大。

(小雅AI音箱)

而在自然語言處理上(NLP),傳統NLP是一個多分類的問題,這依賴資來源資料的分類,需要把前一個階段執行的非常正確。分層次做的好處是簡化問題,但是一旦前面一個階段出現問題,後面一個階段就很難識別用戶的意圖。

獵戶星空在NLP上的第一個版本用的就是這套邏輯,而目前他們在做新模型抽取的時候,會把資來源資料結合模型資料放在一起考慮。這裡採用的模型是更加複雜的結構化的方法。所謂的結構化,比如使用者說的一句話是有結構的,主謂賓的語法對這個結構形成了比較強的限制。此方法仍然屬於判別模型,不過帶有更複雜的結構,通過模型建模這些結構之間的依賴關係,達到一個更高的準確率。

此外,猶豫發問和模糊搜索也是獵戶星空的兩個亮點。傳統NLP的資料處理往往是一個比較正式的文本,但對於使用者的口語資料而言,就必須要處理非正常的情況,比如使用者說話中主謂賓缺失怎麼辦?用戶說了一半“嗯”半秒怎麼處理?對前面內容做了修改怎麼辦?獵戶星空可以通過機器學習的統計,從而在上下文的基礎上判定用戶是否說完了。

而在模糊搜索上,傳統的NLP則假設語音辨識準確的基礎上去搜,但是如果用戶發來的語音辨識結果是錯誤的,那麼可能最終的結果也是錯誤的。這也是為什麼獵戶星空要做更端到端的方案,減弱中間過程的損耗。

通過模糊搜索,比如用戶點的歌名在資料庫中不存在,但是聲音非常相近的一首歌是存在的,再通過用戶高頻點歌的習慣以及喜歡聽歌的習慣,是能夠猜出用戶點的是哪首歌的,獵戶星空在這方面也做了很多的優化。

閔可銳也談到,更有挑戰的是對有聲資源內容的模糊搜索,因為很多有聲資源名字起得很長,使用者能夠記得的只是關鍵字,這就需要在技術上做更多的模糊和容錯。

四、獵戶星空與獵豹體系的姻緣

獵戶星空是獵豹移動旗下的人工智慧公司,關於獵戶星空的定位以及在整個獵豹體系中是一種怎樣的存在,一直也是我們存在的一個疑問,我們也從閔可銳這裡尋找到了答案。

大體而言,機器人,是獵戶星空的主要方向。當然這個“機器人”是一個大品類的機器人,也包括現在的智慧音箱,它構建了機器人完整的語音語義能力。未來,獵戶星空也會將視覺應用其中, 構建更加一體化的機器人。而這也符合傅盛所談的人工智慧的破局點在於產品和應用的結合,真正的AI不應該僅僅有技術,而是真正和我們的生活結合起來的產品。

對於獵戶星空和獵豹而言,雙方更像是一種互補的迴圈。首先獵豹為其提供資金支持,並且獵豹旗下的產品也為其AI技術的落地提供了場景。獵戶星空也將自己的技術賦能到獵豹體系的產品中,説明他們去優化服務以及產品體驗,並通過使用者資料來反覆運算技術。

成長在獵豹體系中的獵戶星空,不必像其他AI創企一樣為融資發愁,也不需要為了生存去佈局暫時的技術落地,傅盛及獵豹也給了它相對寬鬆的空間,短期內不必為盈利而考慮過多。

在獵豹體系中,獵戶星空更專注於技術研發,儘管它也做技術落地,但相較於對產品化更有經驗的獵豹而言,將更多AI技術落地到產品和場景的任務則落到了獵豹身上。

五、通用NLP成行業最大挑戰

當談到國內整個語音交互行業的進展時,閔可銳表示才剛剛起來,通用NLP的挑戰還很大。現在都是限定在具體的場景中去做,這樣能夠保證大多數交互可用,比如點歌用戶的滿意度就可以達到90%以上。

但就通用NLP而言,世界知識模型的建立是很困難的,而這是實現通用智慧很重要的一步。比如“小明打傷了小紅,他被送到了醫院,他被員警帶走了”,我們人很容易理解誰是誰,但是機器則很難辨別,因為它沒有常識。

閔可銳談到,小雅AI音箱發佈後的這三個月,在NLP方面的準確率也上漲了五到七個百分點。這一方面通過用戶使用來反覆運算技術,架構上也在做新的嘗試。另一方面通過用戶使用習慣挖掘出經常出錯的點,然後在演算法模型上進行彌補。

此外,他還談到了行業中一些更具體更產品化的問題。比如兒童的語音辨識準確率不高,一方面源于兒童的口音以及發音方法不同,更重要的是行業對兒童的資料搜集有限。另外,很多兒童玩具設備都受限於電池,能不能將識別能力做到更低功耗等都是當下的問題。

結語:智能音箱戰火將燃向何方?

關於今年異常火熱的智慧音箱,但銷量資料好像並不樂觀。閔可銳還是看好智慧音箱市場,他認為一定程度上智慧音箱確實可以落地,存在可用的場景,並且出貨量也在快速增長,通過用戶對智慧音箱的交互時長可以看出是遠高於很多內容APP的。

可以看出,成立剛一年的獵戶星空已經打磨出了一條完整的語音交互技術,而在視覺方面也在積極探索人臉識別等技術,在語音和視覺這兩個領域取得了一定的成果,並且也在和獵豹體系中的其他產品進行互動,相互促進。

但正如傅盛所言,這個全新的行業才剛剛開始,大家都處於同一起跑線上,獵戶星空能否實現傅盛的AI夢,最終還需要交給市場來評判。

Next Article
喜欢就按个赞吧!!!
点击关闭提示