您的位置:首頁>科技>正文

阿裡入局智能音箱:一次人工智慧的“探索”

CNET科技資訊網 7月6日 北京報導:上周, 關於阿裡巴巴旗下人工智慧實驗室(A.I. Labs)誕生的消息不脛而走, 殊不知該實驗室早在2016年低調成立。 昨天下午, 這個專門研發消費級AI產品的實驗室高調推出研發的第一款智慧語音終端設備——天貓精靈X1, 內置阿裡第一代人機交流系統——AliGenie。

現場, 阿裡人工智慧實驗室負責人淺雪兩句開場白, 道出阿裡入局智慧語音助手市場的初衷:

“語言是人與人之間最主要的溝通方式, 也應該是人與另外一種智慧進行交流的主要方式。 ”“雲端一體化帶來的趨勢是高度智慧化, 智慧終端機需要一個比手機觸屏更強大的人機對話模式。

智慧語音群龍紛爭

自從亞馬遜Echo、穀歌Home、微軟Invoke、蘋果HomePod、京東和科大訊飛的“叮咚”系列、百度的“小魚在家”相繼問世, 加上專案代號為Vega的三星智慧音箱也在緊鑼密鼓的研發中。 語音交互市場為人工智慧時代添了一把火。

我們不禁要問, 玩家之多, 投入之大, 當中原因是什麼?

如淺雪所言, 上個世紀90年代dos系統, 是一個黑底白字字元介面, 敲著鍵盤打著代碼是常態;隨後比爾蓋茨的Windows震驚世界, 一個作業系統加上多工的視覺化視窗, 可以讓溝通更簡單;十年前, 約伯斯告訴大家, 人類其實有一個天然的操作工具就是雙手, 於是觸屏的iPhone一代誕生;十年之後, 人工智慧告訴我們, 人和物的交互其實可以解放雙手。

究其原因是因為, 人工智慧時代, 機器和人類都在加深瞭解, 對於機器來說, 通過不同方式理解人, 難度不同。 例如, 智慧手機可以視為人工智慧1.0時代的產物, 它和人類的交流方式就是把所有的選項都呈現在螢幕上讓人類指導。 但顯然, 無論是遙控控制還是APP化的觸摸點按的操作, 都不是最理想的對話模式, 並不適用於所有人群, 比如, 中老年群體使用手機更多的用作交流。

阿裡巴巴深諳其道, 認為語音是最早最原始的資訊交流管道, 與圖像、動作並為公認的三大對話模式。

而家居環境的屬性使得語音成為最合適的對話模式, 智慧語音應用主要圍繞智慧電視、冰箱、音箱、家用機器人展開, 解決的需求包括搜片、搜歌、提醒、簡單交互、應用調取等等。

細觀全球市場, 亞馬遜並不是最早推出語音助手的, 或者也不是在人工智慧領域的技術實力最強的, 甚至在硬體產品的研發上並非第一, 開發者生態建設更不是佼佼者, 但echo的成功至少說明了兩點:

1、這是一個全新的市場;

2、除了技術實力和硬體研發製造能力之外, 在語音助手領域, 對後段商業和服務生態的整合能力決定了競爭的寬度, 實則更高門檻。

從這個角度反觀中國市場, 如果以“智慧音箱”這個品類看, 毫無疑問音樂內容的豐富是最重要的, 但如果是“智慧語音助手”這個品類, 對後端商業和服務的整合能力是關鍵。

阿裡的入局

這正是阿裡巴巴的思路。 天貓精靈X1除了具備語音控制音樂和音訊內容播放等功能外,

還通過AliGenie接入了眾多生活服務。 目前已經達成的合作夥伴包括美泰、KEEP、西溪天堂綜合體、優酷、高德地圖、淘票票、支付寶、蝦米音樂、天貓超市、菜鳥裹裹、喜馬拉雅FM、淘寶網、阿裡智能聯盟、阿裡數娛、天貓魔盒、繪兒樂、吳曉波頻道、飛豬、盒馬鮮生等。

說一聲“天貓精靈”, 就可以召喚雲端的AliGenie提供服務, 播音樂、聽故事、講笑話、查運勢、玩遊戲、查天氣、找手機、問百科、設鬧鐘/計時器、充話費、查快遞、查價格、天貓魔盒控制、智慧家電操控, 樣樣拿手, 功能還將隨著開發者的入駐而增加。 依靠阿裡雲機器學習技術和計算能力, AliGenie能不斷進化成長, 越用越聰明。

“天貓精靈, 蘋果的熱量是多少?”——“每一百克可食部分為54卡。

“天貓精靈, 我的手機在哪裡?”——“正在搜尋你的手機。 ”

“天貓精靈, 給我手機充值100元。 ”

“天貓精靈, 買一箱可樂。 ”

……

這一幕同樣發生在當天, 天貓精靈X1首席產品體驗官、zealer中國創始人王自如和天貓精靈X1的互動場景, 知無不言言無不盡的天貓精靈十分討喜。

天貓精靈X1和AliGenie背後, 由阿裡巴巴人工智慧實驗室坐鎮, 基於阿裡語音辨識、自然語言處理、人機交互等技術。 其中, 阿裡人工智慧實驗室正在對聲紋識別、聲紋購、NLP中文對話引擎等核心技術申請專利。

1、全程對話溝通

天貓精靈X1外觀圓柱形,有黑白兩種配色,直徑83毫米,頂部中央配有一枚靜音鍵,一觸發此鍵,X1立刻暫停,以保證用戶隱私。X1底部設計一圈隱藏指示燈,會通過聲音判斷用戶方位,亮起燈光以示提醒,燈光還會根據不同使用功能和場景配合進行提示。

配置方面,X1採用SmartAudio專業處理晶片,相比此前市面上的主流晶片,處理效率提升25%,功耗降低32%;搭載了6麥克風環形陣列,在家庭環境下支持5米範圍語音辨識。

X1還具備一定的自我學習功能,可以根據環境噪音進行優化,適應不同家庭環境噪音。

考慮到中文語義環境的複雜性,阿裡人工智慧實驗室通過眾包平臺等方式,徵集生活中的各種生活場景所需要用到的語義問法,僅天氣預報就能夠理解786種中文問法,通過深度學習, X1已覆蓋20個領域的中文自然語義理解,能夠理解人類80%的意圖。

這套語義理解系統還帶有記憶功能和總結歸納能力,加上模擬的“長期記憶”和“短期記憶”功能,更容易理解用戶。除此之外,阿裡人工智慧實驗室還已經著手其他多個語種的研究。

這背後是大量的資料積累,以及遠端計算能力的提升。

2、聲紋識別可分辨人

X1可以通過聲紋識別技術分辨家裡的每一個人。淺雪介紹,聲紋識別技術是生物識別的重要識別手段之一,結合服務鏈多重安全機制,已達到商用的級別。這也是阿裡在語音深度學習領域的核心技術之一。

天貓精靈目前最多可以識別6個人的身份。通過個性化推薦,聲紋識別在辨別出使用者的身份後還能夠實現“千人千面”,根據每個人的喜好設定和推送不同的內容。

比如,聲紋識別技術可以應用到一些購物場景中。使用者先將自己的聲音註冊後生成聲音密碼,與機器綁定後,確認開啟聲紋購功能。隨後,當說出 “幫我買一箱牛奶”這樣的需求時,天貓精靈會要求用戶跟著念一串亂數字進行聲紋校驗,如果確認為用戶本人,天貓精靈會從用戶綁定的支付寶中進行扣款完成交易。

3、開放AliGenie開發者平臺

AliGenie開發者平臺主要面向四種類型的開發者,包括內容開發者、應用開發者、智慧家居開發商和硬體生產商。

(1)向應用開發者免費開放NLP語義理解、TTS語音合成等多項自然語言處理技術。開發者既可以創建技能,為更多的語音使用者提供服務,也可以將自己的設備接入雲端服務,獲取語音交互能力。

(3)為硬體製造企業準備了單麥克風到多麥克風陣列的參考設計方案,並提供包括喚醒詞定制,聲學結構,核心電路設計和晶片方案在內的相關套件的參考設計,以及雲端服務和應用管理所必要的全套工具和使用者APP SDK元件。接入的硬體設備能夠快速具備人機語音交互能力,並共用應用商店的所有應用技能。

按照阿裡的邏輯,除了技術的開放外,生態的開放合作也重要。目前,天貓超市、菜鳥、KEEP等已推出基於天貓精靈X1的語音應用,使用者只需動動口就可以完成話費充值、購買商品、健身語音提示等服務,很快還將上線打車、叫外賣、叫保潔等服務。開發者可以自由發揮。

現場,阿裡人工智慧實驗室也公佈了首個硬體開放合作夥伴:將與國際玩具巨頭美泰合作探索其旗下主要核心IP的合作開發機會,如費雪、芭比、湯瑪斯和朋友等智慧玩具。

除了生態的開放合作,後續的場景植入也關鍵。阿裡目前已經或正在拓展的行業解決方案涉及六個方面,包括兒童領域、酒店領域、家庭場景、TO B其他商業場景、線下零售場景以及與其他顯示裝置結合的場景。

天貓精靈X1於7月5日開始進行限量公測,8月8日將進行首批正式發售,定價人民幣499元。

1、全程對話溝通

天貓精靈X1外觀圓柱形,有黑白兩種配色,直徑83毫米,頂部中央配有一枚靜音鍵,一觸發此鍵,X1立刻暫停,以保證用戶隱私。X1底部設計一圈隱藏指示燈,會通過聲音判斷用戶方位,亮起燈光以示提醒,燈光還會根據不同使用功能和場景配合進行提示。

配置方面,X1採用SmartAudio專業處理晶片,相比此前市面上的主流晶片,處理效率提升25%,功耗降低32%;搭載了6麥克風環形陣列,在家庭環境下支持5米範圍語音辨識。

X1還具備一定的自我學習功能,可以根據環境噪音進行優化,適應不同家庭環境噪音。

考慮到中文語義環境的複雜性,阿裡人工智慧實驗室通過眾包平臺等方式,徵集生活中的各種生活場景所需要用到的語義問法,僅天氣預報就能夠理解786種中文問法,通過深度學習, X1已覆蓋20個領域的中文自然語義理解,能夠理解人類80%的意圖。

這套語義理解系統還帶有記憶功能和總結歸納能力,加上模擬的“長期記憶”和“短期記憶”功能,更容易理解用戶。除此之外,阿裡人工智慧實驗室還已經著手其他多個語種的研究。

這背後是大量的資料積累,以及遠端計算能力的提升。

2、聲紋識別可分辨人

X1可以通過聲紋識別技術分辨家裡的每一個人。淺雪介紹,聲紋識別技術是生物識別的重要識別手段之一,結合服務鏈多重安全機制,已達到商用的級別。這也是阿裡在語音深度學習領域的核心技術之一。

天貓精靈目前最多可以識別6個人的身份。通過個性化推薦,聲紋識別在辨別出使用者的身份後還能夠實現“千人千面”,根據每個人的喜好設定和推送不同的內容。

比如,聲紋識別技術可以應用到一些購物場景中。使用者先將自己的聲音註冊後生成聲音密碼,與機器綁定後,確認開啟聲紋購功能。隨後,當說出 “幫我買一箱牛奶”這樣的需求時,天貓精靈會要求用戶跟著念一串亂數字進行聲紋校驗,如果確認為用戶本人,天貓精靈會從用戶綁定的支付寶中進行扣款完成交易。

3、開放AliGenie開發者平臺

AliGenie開發者平臺主要面向四種類型的開發者,包括內容開發者、應用開發者、智慧家居開發商和硬體生產商。

(1)向應用開發者免費開放NLP語義理解、TTS語音合成等多項自然語言處理技術。開發者既可以創建技能,為更多的語音使用者提供服務,也可以將自己的設備接入雲端服務,獲取語音交互能力。

(3)為硬體製造企業準備了單麥克風到多麥克風陣列的參考設計方案,並提供包括喚醒詞定制,聲學結構,核心電路設計和晶片方案在內的相關套件的參考設計,以及雲端服務和應用管理所必要的全套工具和使用者APP SDK元件。接入的硬體設備能夠快速具備人機語音交互能力,並共用應用商店的所有應用技能。

按照阿裡的邏輯,除了技術的開放外,生態的開放合作也重要。目前,天貓超市、菜鳥、KEEP等已推出基於天貓精靈X1的語音應用,使用者只需動動口就可以完成話費充值、購買商品、健身語音提示等服務,很快還將上線打車、叫外賣、叫保潔等服務。開發者可以自由發揮。

現場,阿裡人工智慧實驗室也公佈了首個硬體開放合作夥伴:將與國際玩具巨頭美泰合作探索其旗下主要核心IP的合作開發機會,如費雪、芭比、湯瑪斯和朋友等智慧玩具。

除了生態的開放合作,後續的場景植入也關鍵。阿裡目前已經或正在拓展的行業解決方案涉及六個方面,包括兒童領域、酒店領域、家庭場景、TO B其他商業場景、線下零售場景以及與其他顯示裝置結合的場景。

天貓精靈X1於7月5日開始進行限量公測,8月8日將進行首批正式發售,定價人民幣499元。

Next Article
喜欢就按个赞吧!!!
点击关闭提示