華文網

阿裡入局智慧音箱,爭奪智慧家居語音交互入口

機器之心原創

作者:吳欣

亞馬遜、微軟、三星、穀歌、蘋果等公司都在爭奪智慧家居交互入口的躍進道路上,巨頭圍獵之下,中國的大小公司所面臨的競爭激烈程度可見一斑,而更殘酷的可能是,

到最後這會是一場 AI 技術之戰。

「整個科技的變革帶來新一次紅利,我們也在思考是否有比觸屏更好的對話模式,經過一段時間的研究,我們認為語言是下一代交互的自然方式。」阿裡巴巴人工智慧實驗室負責人淺雪(本名陳麗娟)在發佈會上說,「另一方面,智慧音箱是一個產品線很長的產品,任何一個環節出現問題,整個音箱的體驗都會很差,這是阿裡自己做音箱的重要原因。

阿裡巴巴人工智慧實驗室負責人淺雪

7 月 5 日,在位於北京鼓樓的時間博物館,阿裡巴巴 Ai Labs 舉辦「未來,開口即來」新品發佈會,宣佈推出該部門第一款自主開發的智慧音箱「天貓精靈 X1」,其售價僅為 499 元。如此前機器之心的報導,它能夠理解中文語音指令,

通過語音交互實現購物、播放音樂音訊內容、玩遊戲、查天氣、問百科、充話費、控制天貓魔盒等功能,短期內僅面向中國市場發售。

作為淘寶網第一代產品經理,淺雪特別談到開發音箱的產品設計理念:「在家庭環境下使用的一款產品,不應該是外觀很大、只有大聲音的智慧設備,這是我們對這款產品的第一個思考,另一方面,語音交互這種方式將無所不在,

做得越來越小,才是語音交互助手終極追求方向。」

阿裡巴巴智慧音箱技術揭秘

根據現場介紹,天貓精靈 X1 採用了首顆為智慧語音行業開發的定制晶片,在解碼、降噪、聲音處理、多聲道的協同等方面做了專門的優化處理。針對 AliGenie 需要進行大量音訊處理、聲音合成的工作環境,定制晶片加入了獨立的 NEON 處理單元,NEON 技術可加速音訊和語音處理、電話和聲音合成等,從而帶來更優秀的語音辨識及音訊處理效果。

值得一提的是,這款晶片面積減少 25%,功耗降低 32%,效率提高了 25%。

系統軟體方面,採用了一鍵聲波配網技術,這讓天貓精靈 X1 不到 10 秒就能連上網路。而配網對智慧家居來說,非常有挑戰性,目前大部分產品配網時間平均大於 30 秒。

收音方案則採用了六麥克風收音陣列技術。在頂部的六顆高靈敏麥克風有助於收集來自不同方向的聲音,從而更容易在周圍的噪音中識別出有用的資訊,

來達到更好的遠場交互效果。據瞭解,思必馳作為專案合作方,在這款音箱中提供了環形六麥陣列、語音辨識、語音合成、回聲消噪及語音增強等前端技術解決方案。

作為提升天貓精靈 X1 理解力、執行力和進化力的關鍵系統 AliGenie,集成了阿裡巴巴積累多年的自然語言處理、人機交互等技術。淺雪介紹稱,「AliGenie 擁有用戶畫像、語境和上下文、同義詞、反義詞、上下位、口語化表達能力。我們通過資料演算法格式,以計算、演算法、資料三方面來呈現。計算層面使用了 FPGA 雲端硬體定制化邏輯電路加速,進行前端雲端聯合優化。在演算法方面,具備語音特徵表達能力,並首創了混合神經網路,AliGenie 也學習了強化和隨機策略。」從資料上看,憑藉阿裡巴巴積累起來的一批獨有、海量的中文語料,AliGenie 目前認識的中文實體已經超過一億,但在維琪百科上的中文實體還不到 1000 萬。

不久前,為天貓精靈 X1 提供技術支援的團隊也首次曝光了其自然語言處理成果。據瞭解,目前通過深度機器學習,天貓精靈 X1 已相容 20 個領域的自然語義理解。

基於聲紋識別技術,天貓精靈 X1 實現了不少功能。首先,音箱能夠在家庭使用場景中識別 6 個人,並保證身份指向性,以提供良好的私密性。其次,用戶在發起購物、充值等需求時說出聲紋密碼,音箱就可以啟動聲音識別系統進行身份驗證,並在確認後完成交易。與亞馬遜 Echo 購物功能不同的是,前者支援用戶把商品加進購物車,而天貓精靈 X1 可以通過聲紋驗證直接支付。根據官方資訊,阿裡人工智慧實驗室正在對聲紋識別、聲紋購、NLP 中文對話引擎等核心技術申請專利。

下一代交互入口陷入混戰

至此,這場由亞馬遜帶動起來的語音交互中國巷戰,已經聚齊中國互聯網巨頭。除了通過自主研發與合作方式推出產品,也紛紛開放自己的技術與服務實施生態化圈地運動。

AliGenie 系統不僅支援天貓精靈 X1,還擁有一個開發者平臺,將對開發者開放深度學習、自然語言處理、搜索 / 推薦演算法、知識表示及推理問答系統四個方面的核心技術。在分成方面,開發者可以獲得全部收益,平臺在推廣期間不參與分成。

AliGenie 平臺主要面向四種類型的開發者,包括內容開發者、應用開發者、智慧家居開發商和硬體生產商。不同的開發者,可以通過 AliGenie 創建技能,提供更多的語音服務,如現場展示的應用 Keep。

事實上,阿裡巴巴的優勢也包括內容和應用端,從淘寶網、天貓到支付寶等平臺可支援的日常商業服務眾多。目前,該系統除了包括音樂音訊、兒童教育、家居控制等方面的應用入駐,該系統也接入 5 家酒店,並與美國最大玩具廠商美泰達成戰略合作,在智慧家電方面支援 100 多個品牌。在這之後,阿裡還會推出相關的阿裡 AI 創新開發者計畫。

不久前,騰訊雲也推出騰訊雲小微智慧服務系統,包含了硬體、skill、智慧服務三大平臺。與幾大巨頭中最早推出音箱產品叮咚的京東、更專注於開放語音交互底層技術的 DuerOS 相比,騰訊雲小微不僅僅聚焦在語音層面,服務于包括智慧音箱在內的各類硬體產品以及機器人等,幾乎對標於 Amazon 的 Alexa。在此前機器之心的採訪中得知,除了飛利浦電視、親見家庭語音助手等已經亮相的產品外,其平臺已經有 200 多家合作夥伴已經在陸續接入,在騰訊雲小微第一期「畢業生」中將有 30 多款針對不同場景的智慧音箱與耳機、20 多款人形機器人、車載 HUD、大家電等產品,同時還有超市智慧管理、樓宇監控對講等應用。而在騰訊公司執行董事劉熾平在接受《The Information》採訪時透露,騰訊正在研發一款智慧音箱,或在八月份發佈。

一批仍然不可忽視的玩家,也都在不斷加碼。利用先發優勢,京東與科大訊飛於 2015 年 8 月合作推出的京東叮咚也已經接入 100 多項互聯網服務並且擁有自主的開發者平臺,服務夥伴包括中通快遞、e 袋洗、百度地圖、京東通信、JIMI 機器人、有道雲筆記。此外,叮咚還接入智慧硬體平臺——京東微聯,從而使使用者通過叮咚音箱的語音交互控制平臺上的家電產品,包括生活電器、廚房電器、空調、可穿戴設備等。在 2017 年 6 月的亞洲消費電子展上,京東發佈了叮咚智慧音箱 Top 和叮咚二代,相比第一代產品,新產品新增了自訂喚醒詞、聲紋識別、協力廠商音箱擴展、多種發音人等功能。

除了互聯網巨頭,傳統 IT 廠商聯想集團也進軍智慧音箱領域,在 2017 年 1 月,聯想在 2017 年國際消費類電子產品展覽會上發佈智慧音箱,共配置了八個 360 度遠場麥克風,並採用雜訊抑制與回聲消除技術,使其能夠接收 16 英尺(5 米)以外使用者的語音命令。聯想的智慧音箱擁有兩個版本,國內版採用聯想研究院與思必馳共同研發的中文自然語義理解系統,能進行多輪語言自然互動。海外版則集成 Amazon Alexa 雲語音服務。

亞馬遜、微軟、三星、穀歌、蘋果等公司也都在爭奪智慧家居交互入口的躍進道路上,巨頭圍獵之下,中國的大小公司所面臨的競爭激烈程度可見一斑,而更殘酷的可能是,到最後這會是一場 AI 技術之戰。

我們通過資料演算法格式,以計算、演算法、資料三方面來呈現。計算層面使用了 FPGA 雲端硬體定制化邏輯電路加速,進行前端雲端聯合優化。在演算法方面,具備語音特徵表達能力,並首創了混合神經網路,AliGenie 也學習了強化和隨機策略。」從資料上看,憑藉阿裡巴巴積累起來的一批獨有、海量的中文語料,AliGenie 目前認識的中文實體已經超過一億,但在維琪百科上的中文實體還不到 1000 萬。

不久前,為天貓精靈 X1 提供技術支援的團隊也首次曝光了其自然語言處理成果。據瞭解,目前通過深度機器學習,天貓精靈 X1 已相容 20 個領域的自然語義理解。

基於聲紋識別技術,天貓精靈 X1 實現了不少功能。首先,音箱能夠在家庭使用場景中識別 6 個人,並保證身份指向性,以提供良好的私密性。其次,用戶在發起購物、充值等需求時說出聲紋密碼,音箱就可以啟動聲音識別系統進行身份驗證,並在確認後完成交易。與亞馬遜 Echo 購物功能不同的是,前者支援用戶把商品加進購物車,而天貓精靈 X1 可以通過聲紋驗證直接支付。根據官方資訊,阿裡人工智慧實驗室正在對聲紋識別、聲紋購、NLP 中文對話引擎等核心技術申請專利。

下一代交互入口陷入混戰

至此,這場由亞馬遜帶動起來的語音交互中國巷戰,已經聚齊中國互聯網巨頭。除了通過自主研發與合作方式推出產品,也紛紛開放自己的技術與服務實施生態化圈地運動。

AliGenie 系統不僅支援天貓精靈 X1,還擁有一個開發者平臺,將對開發者開放深度學習、自然語言處理、搜索 / 推薦演算法、知識表示及推理問答系統四個方面的核心技術。在分成方面,開發者可以獲得全部收益,平臺在推廣期間不參與分成。

AliGenie 平臺主要面向四種類型的開發者,包括內容開發者、應用開發者、智慧家居開發商和硬體生產商。不同的開發者,可以通過 AliGenie 創建技能,提供更多的語音服務,如現場展示的應用 Keep。

事實上,阿裡巴巴的優勢也包括內容和應用端,從淘寶網、天貓到支付寶等平臺可支援的日常商業服務眾多。目前,該系統除了包括音樂音訊、兒童教育、家居控制等方面的應用入駐,該系統也接入 5 家酒店,並與美國最大玩具廠商美泰達成戰略合作,在智慧家電方面支援 100 多個品牌。在這之後,阿裡還會推出相關的阿裡 AI 創新開發者計畫。

不久前,騰訊雲也推出騰訊雲小微智慧服務系統,包含了硬體、skill、智慧服務三大平臺。與幾大巨頭中最早推出音箱產品叮咚的京東、更專注於開放語音交互底層技術的 DuerOS 相比,騰訊雲小微不僅僅聚焦在語音層面,服務于包括智慧音箱在內的各類硬體產品以及機器人等,幾乎對標於 Amazon 的 Alexa。在此前機器之心的採訪中得知,除了飛利浦電視、親見家庭語音助手等已經亮相的產品外,其平臺已經有 200 多家合作夥伴已經在陸續接入,在騰訊雲小微第一期「畢業生」中將有 30 多款針對不同場景的智慧音箱與耳機、20 多款人形機器人、車載 HUD、大家電等產品,同時還有超市智慧管理、樓宇監控對講等應用。而在騰訊公司執行董事劉熾平在接受《The Information》採訪時透露,騰訊正在研發一款智慧音箱,或在八月份發佈。

一批仍然不可忽視的玩家,也都在不斷加碼。利用先發優勢,京東與科大訊飛於 2015 年 8 月合作推出的京東叮咚也已經接入 100 多項互聯網服務並且擁有自主的開發者平臺,服務夥伴包括中通快遞、e 袋洗、百度地圖、京東通信、JIMI 機器人、有道雲筆記。此外,叮咚還接入智慧硬體平臺——京東微聯,從而使使用者通過叮咚音箱的語音交互控制平臺上的家電產品,包括生活電器、廚房電器、空調、可穿戴設備等。在 2017 年 6 月的亞洲消費電子展上,京東發佈了叮咚智慧音箱 Top 和叮咚二代,相比第一代產品,新產品新增了自訂喚醒詞、聲紋識別、協力廠商音箱擴展、多種發音人等功能。

除了互聯網巨頭,傳統 IT 廠商聯想集團也進軍智慧音箱領域,在 2017 年 1 月,聯想在 2017 年國際消費類電子產品展覽會上發佈智慧音箱,共配置了八個 360 度遠場麥克風,並採用雜訊抑制與回聲消除技術,使其能夠接收 16 英尺(5 米)以外使用者的語音命令。聯想的智慧音箱擁有兩個版本,國內版採用聯想研究院與思必馳共同研發的中文自然語義理解系統,能進行多輪語言自然互動。海外版則集成 Amazon Alexa 雲語音服務。

亞馬遜、微軟、三星、穀歌、蘋果等公司也都在爭奪智慧家居交互入口的躍進道路上,巨頭圍獵之下,中國的大小公司所面臨的競爭激烈程度可見一斑,而更殘酷的可能是,到最後這會是一場 AI 技術之戰。