智能音箱熱潮的實質：對話式人工智慧的交互變革

2011年，約伯斯在iPhone4s發佈會上得意洋洋地展示出了Siri智慧語音助理。約伯斯在當時就判定， Siri是人工智慧的入口級產品。這款約伯斯的遺作在此後6年並沒有太大長進，

相反亞馬遜的智慧音箱Amazon Echo悄然之間佔領了市場。

《華爾街日報》在今年6月撰文稱， Siri簡直提供了一個教科書般的範本：它最初在技術上領先，而且擁有充裕的資金和人才，但卻逐漸喪失領先優勢。

與此同時，科技圈正在掀起一場智慧語音助理熱。 7月5日阿裡和百度兩場有關人工智慧的發佈會宣告——智慧音箱以及智慧語音助理正在真正走入人們的日常生活。

失落的智慧語音助理

7月5日下午阿裡人工智慧實驗室首次公開亮相，推出了一款智慧音箱——天貓精靈X1。

這場發佈會效果頗佳，和上午的百度AI開發者大會遙相呼應，共同拉動了當日的人工智慧概念股。

如此熱鬧的場面不禁讓人感慨智慧語音助理在前幾年的生不逢時。

多年以後，筆者依然會想起羅永浩的那些小trick：

2013年3月27日晚，老羅在國家會議中心發佈了錘子Rom，他引以為傲的語音辨識功能因為會場回音居然多次演示失敗；

2015年8月25日晚，可能是那場演示的心理陰影還未散去，老羅找來了朱蕭木，退而求其次，做了一個單機版語音辨識的演示；

2017年5月8日晚，羅永浩不再談語音助理這件事情，而是如數家珍地搬出閃念膠囊功能，把腦子裡那些一閃而過的靈感記錄成文字。

坦率來說，老羅每一次得意洋洋的展示都挺拙劣的。因為在筆者看來，語音辨識這件事本身就存在很多心理障礙和物理障礙。

比方說，你在公車上對著自己的手機喊“給陳總打電話”，周圍的人會像看怪物一樣盯著你；

再比方說，你在公車上對著自己的手機喊“給陳總打電話”，周邊小孩的哭鬧聲可能會直接讓你的手機顯示“語音無法識別”；

（聊天機器人並不稀奇，早已出現）

正是因為這一系列主客觀原因， 2015年亞馬遜推出人工智慧音響Amazon Echo後的兩年，

主流科技圈都對此無感。

這個傻大黑粗的音響並不是什麼炫技的產品。事實上，語音助理功能也並不稀奇。

智慧語音助手這件事情從2011年Siri誕生開始，它就註定成為了一個玩物。它就像很多90後曾經在校園裡調戲過的“小黃雞”機器人一樣，只是一個只能把人逗樂半天的聊天機器人。

全球智慧音箱的熱潮

直到2016年8月，被譽為“互聯網女皇”的凱鵬華盈（KPCB）合夥人瑪麗·米克（Mary Meeker）在她那份2016年《互聯網趨勢》（Internet Trends）報告中提到， iPhone的銷量在2015年可能已經接近天花板，有趣的是亞馬遜的語音助理硬體Echo銷量正在大幅增長，現在銷量已超過400萬台。

（互聯網女皇2016年《互聯網趨勢》報告）

這份報告同時指出，語音正成為計算介面，也是電腦輸入最有效率的一種形式，機器對語音辨識的正確率從2010年的約70%，提高到2016年的約90%。

（互聯網女皇2016年《互聯網趨勢》報告）

這時，全世界才真正注意到智慧音箱這個新事物的潛力所在。

我們可以算一下智慧音箱這幾年來的上市節點：

2016年5 月17日Google I/O 上，Google Home 誕生；

2017年5月9日，微軟 Build 2017上，大與哈曼卡頓聯合合作的Invoke 智能音箱誕生；

2017年6月5日，蘋果家居智慧音箱HomePod誕生，而且按照蘋果的計畫明年還將推出Siri音箱；

2017年7月5日，阿裡人工智慧實驗室研究成果天貓精靈X1推出。

之所以會以智慧音箱切入是有原因的。家庭環境下的wifi網路能夠支撐智慧語音助手隨時線上，家庭環境下的語音干擾也是最少的，私密性也是最好的。除此之外，在家庭環境下，需要助理的服務環境非常多樣，比如你想開燈關燈、你想定個外賣、你想網購商品，這些都是在家庭環境中可以實現的。而且最為重要的是這些環節用語音和智慧音箱交互，遠比手機更便捷。

也就是說，智慧語音助理之所以會在家庭室內以智慧音箱的形態出現主要是解決了這幾個問題：

第一，心理上的障礙；第二，服務場景的多樣；第三，比手機更便捷。

因此智慧音箱會成為一陣浪潮，在美國家庭被用戶解決各式各樣的生活問題。因為它天然規避了手機的使用場景，形成了人們日常生活的有益補充。

對話式人工智慧的實質

我們真正需要探討的是，智慧音箱它到底是像智慧可穿戴設備一樣，僅僅只是智慧手機的有益補充，還是能夠成為未來個人、家庭的服務入口。

因為，如果智慧音箱僅僅只是智慧手機的補充，那這意味著它的量級永遠只是局限數百萬台的規模，僅僅被少數人所使用。

不過，目前來看，智慧音箱的實質其實並不是音箱甚至不是智慧語音助理這麼簡單，準確定義的話，這實際上是“對話式”人工智慧。

在微軟Build2016開發者大會上，微軟CEO納德拉首先提出了“Conversations as a Platform”，也就是“對話即平臺”的人工智慧發展方向。

這個概念在後來也被成為是“對話式人工智慧”。

所謂“對話式人工智慧”指的是，對話本身就是一個平臺，各種知識、資訊與服務都運行在“對話”其上，可以形成生態環境的基礎平臺。人和人工智慧之間的對話，即是解決各種問題的一種路徑和方式。

如果說的更淺顯一些，那就是人們能夠通過人和人正常交流的方式，來與機器進行溝通，以此來獲取資訊和服務。

也就是說，未來人們其實不僅僅是在家裡可以用智慧語音助理來獲取服務，智慧語音助理甚至可能無所不在。所以你會發現，阿裡人工智慧實驗室在發佈天貓精靈的同時，還公佈了配套的研發平臺AliGenie開發者平臺。這一開發平臺主要面向個人內容開發者、應用開發者、智慧家居開發者以及硬體生產商等四類開發者。

未來我們可以在汽車、冰箱、電視甚至是家庭的垃圾桶上享受到智慧語音助理的服務，隨時用語音獲取資訊。用阿裡人工智慧實驗室負責人淺雪的話來說，“終端方面的合作夥伴包括阿裡智慧IoT、塗鴉科技以及一些大廠，涉及千萬款以上產品、100多個品類。”

這也意味著將來智慧語音助理將無所不能、連接一切。

這種對話模式或許令人意外，但是語言本來不就是人誕生以來的對話模式麼？

語音是所有動物最早最原始的資訊交流方式，這對於使用者來說幾乎沒有任何的門檻，哪怕是還不識字的孩童。

只是隨著資訊化時代的來臨，鍵鼠成了我們操縱電腦與他人交流、獲取資訊服務的對話模式，而隨著移動時代的來臨，觸控式螢幕又取代鍵鼠成了新的對話模式。

細細數來，鍵鼠這種對話模式存在至今不過50年，而觸控式螢幕這種對話模式嚴格算來也僅僅只有不到20年。

但觸控式螢幕取代鍵鼠的那一刹那，有多少人表示過驚訝？當約伯斯宣稱說其實人類有一個天然的操作工具的時候，我們還認為他可能會推出全鍵盤手機。然而他說的是全觸控式螢幕手機。所有人都認為，觸控式螢幕手機收發郵件不方便，打字不夠快捷。

黑莓時任聯席CEO兼創始人Jim Balsillie在2007年2月曾經說過的一句話：（蘋果和iPhone）有點像一位試圖加入一間已經十分擁擠的屋子的新人，在這裡消費者已經有許多許多選擇了……但是如果說這將對黑莓產生海嘯般的影響，我會覺得有點誇張了。

後來的事情大家都知道，更符合人類直覺的觸控式螢幕取代了全鍵盤。在智慧音箱的身後其實也存在這個交互變革的邏輯。

雲計算大資料重塑語音

儘管是回到語音這個交互邏輯上，但本質來看，智慧語音助理下的語音和過去的語音交互其實存在著本質的差別。

過去我們用語音調用的實際上是另外一個人的服務。對話和對話之間本質上信息量很少。

實際上，語音交互存在大量問題：

1、場景覆蓋的低；

2、缺乏系統可視性；

3、語音無法表現資訊層級。

4、語音交互消耗注意力，增加記憶負擔。

5、隨之帶來的交互效率低。

但是隨著人工智慧和雲計算、大資料的到來，人和語音的交互本質上正在發生變化。因為這並非雙向語音之間的交互，只需要人發出指令即可。

劉慈欣在《鄉村教師》的這段話很形象地點名了未來語音交互的信息量：

“你是想告訴我們，一種沒有記憶遺傳，相互間用聲波進行資訊交流，並且是以令人難以置信的每秒1至10比特的速率進行交流的物種，能創造出5B級文明？！而且這種文明是在沒有任何外部高級文明培植的情況下自行進化的？！”

劉慈欣這句話的實質是大量的資料的積累，以及遠端計算能力的提升。這些提升重塑了語音，解決了一系列的問題：

當語音調用的資訊本身是具備可視性、劃分層級而且直觀易懂甚至縮短大量資訊環節的時候。它本質上就是一個更為合理的對話模式。

（隨著大資料和雲計算技術成熟，語音調用了大量的資料）

如果我們換個意思來理解可能會更形象——古今同樣是說一句話，可以調用的能量發生的數量級的差異。舉個例子，古人說出“我想聽個《霓裳曲》”，實現他就需要一個戲班子。而現在人類說同樣的一句話，就只需要調動雲端的幾MB的音訊流。

這種變化實際上是靠大資料積累以及雲計算處理來完成的，以雲端的處理速度，迅速調用各類服務，將對話式人工智慧的效率提到最高。

50多年的彎路之後，人類走過了鍵盤、滑鼠、觸控式螢幕等一系列交互手段，而以智慧語音助理為代表的對話式人工智慧正在讓人類返璞歸真。

（互聯網女皇2016年《互聯網趨勢》報告）

這時，全世界才真正注意到智慧音箱這個新事物的潛力所在。

我們可以算一下智慧音箱這幾年來的上市節點：

2016年5 月17日Google I/O 上，Google Home 誕生；

2017年5月9日，微軟 Build 2017上，大與哈曼卡頓聯合合作的Invoke 智能音箱誕生；

2017年6月5日，蘋果家居智慧音箱HomePod誕生，而且按照蘋果的計畫明年還將推出Siri音箱；

2017年7月5日，阿裡人工智慧實驗室研究成果天貓精靈X1推出。

也就是說，智慧語音助理之所以會在家庭室內以智慧音箱的形態出現主要是解決了這幾個問題：

第一，心理上的障礙；第二，服務場景的多樣；第三，比手機更便捷。

因此智慧音箱會成為一陣浪潮，在美國家庭被用戶解決各式各樣的生活問題。因為它天然規避了手機的使用場景，形成了人們日常生活的有益補充。

對話式人工智慧的實質

我們真正需要探討的是，智慧音箱它到底是像智慧可穿戴設備一樣，僅僅只是智慧手機的有益補充，還是能夠成為未來個人、家庭的服務入口。

因為，如果智慧音箱僅僅只是智慧手機的補充，那這意味著它的量級永遠只是局限數百萬台的規模，僅僅被少數人所使用。

不過，目前來看，智慧音箱的實質其實並不是音箱甚至不是智慧語音助理這麼簡單，準確定義的話，這實際上是“對話式”人工智慧。

在微軟Build2016開發者大會上，微軟CEO納德拉首先提出了“Conversations as a Platform”，也就是“對話即平臺”的人工智慧發展方向。

這個概念在後來也被成為是“對話式人工智慧”。

如果說的更淺顯一些，那就是人們能夠通過人和人正常交流的方式，來與機器進行溝通，以此來獲取資訊和服務。

這也意味著將來智慧語音助理將無所不能、連接一切。

這種對話模式或許令人意外，但是語言本來不就是人誕生以來的對話模式麼？

語音是所有動物最早最原始的資訊交流方式，這對於使用者來說幾乎沒有任何的門檻，哪怕是還不識字的孩童。

細細數來，鍵鼠這種對話模式存在至今不過50年，而觸控式螢幕這種對話模式嚴格算來也僅僅只有不到20年。

後來的事情大家都知道，更符合人類直覺的觸控式螢幕取代了全鍵盤。在智慧音箱的身後其實也存在這個交互變革的邏輯。

雲計算大資料重塑語音

儘管是回到語音這個交互邏輯上，但本質來看，智慧語音助理下的語音和過去的語音交互其實存在著本質的差別。

過去我們用語音調用的實際上是另外一個人的服務。對話和對話之間本質上信息量很少。

實際上，語音交互存在大量問題：

1、場景覆蓋的低；

2、缺乏系統可視性；

3、語音無法表現資訊層級。

4、語音交互消耗注意力，增加記憶負擔。

5、隨之帶來的交互效率低。

但是隨著人工智慧和雲計算、大資料的到來，人和語音的交互本質上正在發生變化。因為這並非雙向語音之間的交互，只需要人發出指令即可。

劉慈欣在《鄉村教師》的這段話很形象地點名了未來語音交互的信息量：

劉慈欣這句話的實質是大量的資料的積累，以及遠端計算能力的提升。這些提升重塑了語音，解決了一系列的問題：

當語音調用的資訊本身是具備可視性、劃分層級而且直觀易懂甚至縮短大量資訊環節的時候。它本質上就是一個更為合理的對話模式。

（隨著大資料和雲計算技術成熟，語音調用了大量的資料）

這種變化實際上是靠大資料積累以及雲計算處理來完成的，以雲端的處理速度，迅速調用各類服務，將對話式人工智慧的效率提到最高。

50多年的彎路之後，人類走過了鍵盤、滑鼠、觸控式螢幕等一系列交互手段，而以智慧語音助理為代表的對話式人工智慧正在讓人類返璞歸真。