CNET科技資訊網 7月6日 北京報導:上周, 關於阿裡巴巴旗下人工智慧實驗室(A.I. Labs)誕生的消息不脛而走, 殊不知該實驗室早在2016年低調成立。 昨天下午, 這個專門研發消費級AI產品的實驗室高調推出研發的第一款智慧語音終端設備——天貓精靈X1, 內置阿裡第一代人機交流系統——AliGenie。
現場, 阿裡人工智慧實驗室負責人淺雪兩句開場白, 道出阿裡入局智慧語音助手市場的初衷:
“語言是人與人之間最主要的溝通方式, 也應該是人與另外一種智慧進行交流的主要方式。 ”“雲端一體化帶來的趨勢是高度智慧化, 智慧終端機需要一個比手機觸屏更強大的人機對話模式。
智慧語音群龍紛爭
自從亞馬遜Echo、穀歌Home、微軟Invoke、蘋果HomePod、京東和科大訊飛的“叮咚”系列、百度的“小魚在家”相繼問世, 加上專案代號為Vega的三星智慧音箱也在緊鑼密鼓的研發中。 語音交互市場為人工智慧時代添了一把火。
我們不禁要問, 玩家之多, 投入之大, 當中原因是什麼?
如淺雪所言, 上個世紀90年代dos系統, 是一個黑底白字字元介面, 敲著鍵盤打著代碼是常態;隨後比爾蓋茨的Windows震驚世界, 一個作業系統加上多工的視覺化視窗, 可以讓溝通更簡單;十年前, 約伯斯告訴大家, 人類其實有一個天然的操作工具就是雙手, 於是觸屏的iPhone一代誕生;十年之後, 人工智慧告訴我們, 人和物的交互其實可以解放雙手。
究其原因是因為, 人工智慧時代, 機器和人類都在加深瞭解, 對於機器來說, 通過不同方式理解人, 難度不同。 例如, 智慧手機可以視為人工智慧1.0時代的產物, 它和人類的交流方式就是把所有的選項都呈現在螢幕上讓人類指導。 但顯然, 無論是遙控控制還是APP化的觸摸點按的操作, 都不是最理想的對話模式, 並不適用於所有人群, 比如, 中老年群體使用手機更多的用作交流。
阿裡巴巴深諳其道, 認為語音是最早最原始的資訊交流管道, 與圖像、動作並為公認的三大對話模式。
而家居環境的屬性使得語音成為最合適的對話模式, 智慧語音應用主要圍繞智慧電視、冰箱、音箱、家用機器人展開, 解決的需求包括搜片、搜歌、提醒、簡單交互、應用調取等等。
細觀全球市場, 亞馬遜並不是最早推出語音助手的, 或者也不是在人工智慧領域的技術實力最強的, 甚至在硬體產品的研發上並非第一, 開發者生態建設更不是佼佼者, 但echo的成功至少說明了兩點:
1、這是一個全新的市場;
2、除了技術實力和硬體研發製造能力之外, 在語音助手領域, 對後段商業和服務生態的整合能力決定了競爭的寬度, 實則更高門檻。
從這個角度反觀中國市場, 如果以“智慧音箱”這個品類看, 毫無疑問音樂內容的豐富是最重要的, 但如果是“智慧語音助手”這個品類, 對後端商業和服務的整合能力是關鍵。
阿裡的入局
這正是阿裡巴巴的思路。 天貓精靈X1除了具備語音控制音樂和音訊內容播放等功能外,
說一聲“天貓精靈”, 就可以召喚雲端的AliGenie提供服務, 播音樂、聽故事、講笑話、查運勢、玩遊戲、查天氣、找手機、問百科、設鬧鐘/計時器、充話費、查快遞、查價格、天貓魔盒控制、智慧家電操控, 樣樣拿手, 功能還將隨著開發者的入駐而增加。 依靠阿裡雲機器學習技術和計算能力, AliGenie能不斷進化成長, 越用越聰明。
“天貓精靈, 蘋果的熱量是多少?”——“每一百克可食部分為54卡。
“天貓精靈, 我的手機在哪裡?”——“正在搜尋你的手機。 ”
“天貓精靈, 給我手機充值100元。 ”
“天貓精靈, 買一箱可樂。 ”
……
這一幕同樣發生在當天, 天貓精靈X1首席產品體驗官、zealer中國創始人王自如和天貓精靈X1的互動場景, 知無不言言無不盡的天貓精靈十分討喜。
天貓精靈X1和AliGenie背後, 由阿裡巴巴人工智慧實驗室坐鎮, 基於阿裡語音辨識、自然語言處理、人機交互等技術。 其中, 阿裡人工智慧實驗室正在對聲紋識別、聲紋購、NLP中文對話引擎等核心技術申請專利。
1、全程對話溝通
天貓精靈X1外觀圓柱形,有黑白兩種配色,直徑83毫米,頂部中央配有一枚靜音鍵,一觸發此鍵,X1立刻暫停,以保證用戶隱私。X1底部設計一圈隱藏指示燈,會通過聲音判斷用戶方位,亮起燈光以示提醒,燈光還會根據不同使用功能和場景配合進行提示。
配置方面,X1採用SmartAudio專業處理晶片,相比此前市面上的主流晶片,處理效率提升25%,功耗降低32%;搭載了6麥克風環形陣列,在家庭環境下支持5米範圍語音辨識。
X1還具備一定的自我學習功能,可以根據環境噪音進行優化,適應不同家庭環境噪音。
考慮到中文語義環境的複雜性,阿裡人工智慧實驗室通過眾包平臺等方式,徵集生活中的各種生活場景所需要用到的語義問法,僅天氣預報就能夠理解786種中文問法,通過深度學習, X1已覆蓋20個領域的中文自然語義理解,能夠理解人類80%的意圖。
這套語義理解系統還帶有記憶功能和總結歸納能力,加上模擬的“長期記憶”和“短期記憶”功能,更容易理解用戶。除此之外,阿裡人工智慧實驗室還已經著手其他多個語種的研究。
這背後是大量的資料積累,以及遠端計算能力的提升。
2、聲紋識別可分辨人
X1可以通過聲紋識別技術分辨家裡的每一個人。淺雪介紹,聲紋識別技術是生物識別的重要識別手段之一,結合服務鏈多重安全機制,已達到商用的級別。這也是阿裡在語音深度學習領域的核心技術之一。
天貓精靈目前最多可以識別6個人的身份。通過個性化推薦,聲紋識別在辨別出使用者的身份後還能夠實現“千人千面”,根據每個人的喜好設定和推送不同的內容。
比如,聲紋識別技術可以應用到一些購物場景中。使用者先將自己的聲音註冊後生成聲音密碼,與機器綁定後,確認開啟聲紋購功能。隨後,當說出 “幫我買一箱牛奶”這樣的需求時,天貓精靈會要求用戶跟著念一串亂數字進行聲紋校驗,如果確認為用戶本人,天貓精靈會從用戶綁定的支付寶中進行扣款完成交易。
3、開放AliGenie開發者平臺
AliGenie開發者平臺主要面向四種類型的開發者,包括內容開發者、應用開發者、智慧家居開發商和硬體生產商。
(1)向應用開發者免費開放NLP語義理解、TTS語音合成等多項自然語言處理技術。開發者既可以創建技能,為更多的語音使用者提供服務,也可以將自己的設備接入雲端服務,獲取語音交互能力。
(3)為硬體製造企業準備了單麥克風到多麥克風陣列的參考設計方案,並提供包括喚醒詞定制,聲學結構,核心電路設計和晶片方案在內的相關套件的參考設計,以及雲端服務和應用管理所必要的全套工具和使用者APP SDK元件。接入的硬體設備能夠快速具備人機語音交互能力,並共用應用商店的所有應用技能。
按照阿裡的邏輯,除了技術的開放外,生態的開放合作也重要。目前,天貓超市、菜鳥、KEEP等已推出基於天貓精靈X1的語音應用,使用者只需動動口就可以完成話費充值、購買商品、健身語音提示等服務,很快還將上線打車、叫外賣、叫保潔等服務。開發者可以自由發揮。
現場,阿裡人工智慧實驗室也公佈了首個硬體開放合作夥伴:將與國際玩具巨頭美泰合作探索其旗下主要核心IP的合作開發機會,如費雪、芭比、湯瑪斯和朋友等智慧玩具。
除了生態的開放合作,後續的場景植入也關鍵。阿裡目前已經或正在拓展的行業解決方案涉及六個方面,包括兒童領域、酒店領域、家庭場景、TO B其他商業場景、線下零售場景以及與其他顯示裝置結合的場景。
天貓精靈X1於7月5日開始進行限量公測,8月8日將進行首批正式發售,定價人民幣499元。
1、全程對話溝通
天貓精靈X1外觀圓柱形,有黑白兩種配色,直徑83毫米,頂部中央配有一枚靜音鍵,一觸發此鍵,X1立刻暫停,以保證用戶隱私。X1底部設計一圈隱藏指示燈,會通過聲音判斷用戶方位,亮起燈光以示提醒,燈光還會根據不同使用功能和場景配合進行提示。
配置方面,X1採用SmartAudio專業處理晶片,相比此前市面上的主流晶片,處理效率提升25%,功耗降低32%;搭載了6麥克風環形陣列,在家庭環境下支持5米範圍語音辨識。
X1還具備一定的自我學習功能,可以根據環境噪音進行優化,適應不同家庭環境噪音。
考慮到中文語義環境的複雜性,阿裡人工智慧實驗室通過眾包平臺等方式,徵集生活中的各種生活場景所需要用到的語義問法,僅天氣預報就能夠理解786種中文問法,通過深度學習, X1已覆蓋20個領域的中文自然語義理解,能夠理解人類80%的意圖。
這套語義理解系統還帶有記憶功能和總結歸納能力,加上模擬的“長期記憶”和“短期記憶”功能,更容易理解用戶。除此之外,阿裡人工智慧實驗室還已經著手其他多個語種的研究。
這背後是大量的資料積累,以及遠端計算能力的提升。
2、聲紋識別可分辨人
X1可以通過聲紋識別技術分辨家裡的每一個人。淺雪介紹,聲紋識別技術是生物識別的重要識別手段之一,結合服務鏈多重安全機制,已達到商用的級別。這也是阿裡在語音深度學習領域的核心技術之一。
天貓精靈目前最多可以識別6個人的身份。通過個性化推薦,聲紋識別在辨別出使用者的身份後還能夠實現“千人千面”,根據每個人的喜好設定和推送不同的內容。
比如,聲紋識別技術可以應用到一些購物場景中。使用者先將自己的聲音註冊後生成聲音密碼,與機器綁定後,確認開啟聲紋購功能。隨後,當說出 “幫我買一箱牛奶”這樣的需求時,天貓精靈會要求用戶跟著念一串亂數字進行聲紋校驗,如果確認為用戶本人,天貓精靈會從用戶綁定的支付寶中進行扣款完成交易。
3、開放AliGenie開發者平臺
AliGenie開發者平臺主要面向四種類型的開發者,包括內容開發者、應用開發者、智慧家居開發商和硬體生產商。
(1)向應用開發者免費開放NLP語義理解、TTS語音合成等多項自然語言處理技術。開發者既可以創建技能,為更多的語音使用者提供服務,也可以將自己的設備接入雲端服務,獲取語音交互能力。
(3)為硬體製造企業準備了單麥克風到多麥克風陣列的參考設計方案,並提供包括喚醒詞定制,聲學結構,核心電路設計和晶片方案在內的相關套件的參考設計,以及雲端服務和應用管理所必要的全套工具和使用者APP SDK元件。接入的硬體設備能夠快速具備人機語音交互能力,並共用應用商店的所有應用技能。
按照阿裡的邏輯,除了技術的開放外,生態的開放合作也重要。目前,天貓超市、菜鳥、KEEP等已推出基於天貓精靈X1的語音應用,使用者只需動動口就可以完成話費充值、購買商品、健身語音提示等服務,很快還將上線打車、叫外賣、叫保潔等服務。開發者可以自由發揮。
現場,阿裡人工智慧實驗室也公佈了首個硬體開放合作夥伴:將與國際玩具巨頭美泰合作探索其旗下主要核心IP的合作開發機會,如費雪、芭比、湯瑪斯和朋友等智慧玩具。
除了生態的開放合作,後續的場景植入也關鍵。阿裡目前已經或正在拓展的行業解決方案涉及六個方面,包括兒童領域、酒店領域、家庭場景、TO B其他商業場景、線下零售場景以及與其他顯示裝置結合的場景。
天貓精靈X1於7月5日開始進行限量公測,8月8日將進行首批正式發售,定價人民幣499元。