手機交互的“暢想曲” 語音辨識會這樣幹掉觸控式螢幕

前些日子有一則視屏為大家帶來了很多歡笑，一個山東的朋友為自己的愛車裝上了語音助手，結果最後卻被這個語音助手搞得火冒三丈。大家可以百度《山東大漢手機沒電了，和車載智慧語音搞笑對話》，沒看過的朋友可以拿來測試一下自己的笑點。

娛樂歸娛樂，看完視頻我們不禁陷入了深深地思考中，曾今被熱炒的語音辨識怎麼就變得這麼雞肋了呢？難道這又是一個“偽命題”麼，現在的語音助手最大的缺陷在哪些方面，未來他們要做出哪些改進才能承擔我們“私人管家”的重任，聲稱要取代觸控式螢幕和大多數App的語音助手能夠成功麼？以上這些問題都深深困擾著筆者。

但是“撥開陰雲見明日”的時候到了！昨天某公司公佈了全新語音助手Bixby的部分特性，主要有三：

① 一個應用支援Bixby後，使用者可以通過語音操控執行之前需要觸摸進行的任何操作，

也就是說通過Bixby我們可以用語音指令完成複雜的操作；

②Bixby擁有理解語境的能力，可以識別用戶是在和別人說話還是和“自己”發送命令；

③ Siri等語音助手需要使用者輸入固定模式的精確語音資訊才能執行相應操作，但Bixby足夠聰明， Ta可以理解不完整、模糊不清的語音，甚至是“言外之意”。

從以上三點我們基本可以確定，未來的語音助手是可以避免之前那個搞笑視頻中的種種缺陷的，例如把使用者和他人的對話識別為指令、不理解使用者的情緒等問題，並且更加重要的是， “一問一答”機械式的尷尬對話再也不會出現，語音助手就是一個能和我們正常交流的“人”。

一問一答式的語音助手太愚蠢

這些讓我們想起了微軟、穀歌等公司以前對語音助手的觀點：語音指令將完全取代在螢幕上點劃的操作、語音虛擬助手將取代絕大多數功能類App。

以前各大公司在語音助手上的功夫主要下在②、③兩個領域，也就是第一階段，因為不管是方言、嘈雜的環境、複雜的交流過程都使得語音助手很難從一大堆聲音資訊中識別到真正有用的。

這些技術的難點主要集中在語料庫的建設，還有對於語音辨識系統大規模、長時間的訓練上（這是一種人工智慧學習能力的訓練，就像AlphaGo需要不斷練習才能提升圍棋水準一樣），對於語音助手來說幾萬小時的訓練時間都是九牛一毛，所以這麼大的計算、資料輸送量，基本沒有幾個公司承擔的起，要做到最好更是難上加難。

第二個階段，而即使攻破了“聽到”這個難點， “聽懂”則又上了一層樓，以前的語音助手都是“一問一答”式，問什麼Ta就回答什麼，一旦對話中斷、旁邊有人插嘴，或者突然換了一個問題，那麼語音助手的識別就可能出錯。但是如果Ta能夠“聽懂”，就意味著Ta能明白哪些話是需要記錄的，哪些問題是需要回應的，當達到這種程度的時候，我們的語音助手其實就很像一個真正的人了。

最後一個階段，就是語音助手完全進化為我們的超級私人助理的過程，也就是①的過程， Ta將能夠獲取我們計算終端中的所有資訊，然後對這些資料、圖片、檔做出各種分析，隨時隨地提供給我們，在這個階段語音助手就像一個什麼都不會忘記、什麼都會、計算能力超強的個人管家。

所以想像一下未來語音助手的使用場景：

場景一：記帳軟體可以下崗了，買東西後只需要平平常常地說一聲“哎，又花了100元錢”，Ta聽得懂並且會替你記住，不用像現在這樣說“Siri，我剛剛花了100元錢，幫我記到XX軟體中”，減少了不少尷尬，你也可以直接問Ta我這個月花了多少錢，Ta會直接告訴你的，所以很多App都會因此消失；

筆記、記帳、待辦事項等工具類軟體未來都會淘汰

場景二：一場發言十分雜亂的會議中，語音助手會記錄下這場會議，用戶可以在會後直接問Ta：“剛剛X總說明天下午要去幹嘛？”，Ta會告訴你的。用戶也可以直接問“今年第一季度我們各個網點營業額情況如何？”，Ta也會從你剛剛拍的PPT照片中找到你問的資訊，再也不需要開會時用筆記軟體記錄了；

可能會有些朋友覺得這樣的助手豈不是幫人類把所有的活幹了，但是細想想人工智慧最後的目的不就是這個嗎？但是我們總有一些創造型工作是人工智慧無法代替的。

最後，筆者在這裡要扭轉大家“語音操控效率低”的印象，我們現在使用的觸摸式交互邏輯，是典型的樹狀結構，我們必須一層一層地深入，達到需要的層級之後再查看我們要的資訊；但是語音就不一樣了，這是一種可以直達目的層級的操作方式，需要什麼直接問，比如我們要找一條短信時，以前要點開短信應用、找到對話、點開、找到資訊，而通過語音助手就可以直接問“剛剛馬雲給我發了條短信？給我看看”。

觸控是典型的樹狀操作層級，層層深入

除了可以“直達目的層級”，語音指令還能簡單地概括一項複雜的操作過程，比如要計算今年公司利潤環比增長值，以前需要打開PPT或者相關資料、記下各項資料、最後在計算器中一個個算出來，而現在只需要問一句“給我公司今年利潤的環比增長值”，語音助手會在後臺識別、計算，然後呈現給你，效率又高又有逼格。

所以你還會覺得語音助手是一個雞肋的功能麼？之前大家覺得Siri雞肋只因為蘋果等廠商還沒有把語音助手開發到最強形態，即使是語音辨識準確率、語境理解、複雜資訊的摘取和“言外之意”都不怎麼搞的定，更別說成為一個“人”了。

語言和思考作為人類最偉大的能力，無論如何都是站在所有對話模式頂端的，大家完全沒有必要對這個說法存疑。雖然未來語音確實無法完全取代螢幕（畢竟閱讀、視頻等資訊讀取的工作語音沒辦法幫我們完成），但是幹掉觸控式螢幕這種對話模式是一點問題都沒有滴！

當3D Touch把“樹”變成立體的，也就多了一些操作捷徑

但是請注意筆者這裡只是說的”觸控式螢幕“，這不意味著我們的手會閑下來，觸控式螢幕被淘汰是因為效率實在低下，其實現在已經有了3D Touch這樣的螢幕，“平面樹狀交互結構”升級成“立體樹狀交互結構”，有一些近路可以走了。未來我們的雙手需要承載的交互還會比3D Touch更近一步，能像語音一樣直接到達想要的層級，你要問我是什麼樣子，看過鋼鐵俠吧？

【本文圖片來自網路】

然後對這些資料、圖片、檔做出各種分析，隨時隨地提供給我們，在這個階段語音助手就像一個什麼都不會忘記、什麼都會、計算能力超強的個人管家。

所以想像一下未來語音助手的使用場景：

筆記、記帳、待辦事項等工具類軟體未來都會淘汰

觸控是典型的樹狀操作層級，層層深入

當3D Touch把“樹”變成立體的，也就多了一些操作捷徑

【本文圖片來自網路】