巨頭們的下一戰：手機語音助手，這家公司要做的是讓它“用起來”

分類＼科技
時間＼2017-05-31

在全新的IoT時代，新的對話模式也將誕生。當更多的設備可以聯網時，

觸屏之外，語音就是被寄予期望的下一個核心的入口級產品。“語音辨識已經變得太容易了——技術走到了這個節點，我們認為，最好的創業時機來臨了。”林德康說。

作者 | 楊潔

編輯 | 李白

李飛飛說，谷歌下一步致力的，是讓AI民主化。

在它真正實現之前，智慧語音助手，卻率先走入了一個高☆禁☆潮。植入了Alexa的亞馬遜Echo，成為互聯網行業近幾年內最重要的產品之一；穀歌的Google Home，也在今年的穀歌I/O大會上表示加入了電話功能；微軟的Cortana音箱在近日亮相；而據說，

蘋果Siri的音箱也即將問世了。

這場語音交互的狂歡，是基於交互形態改變作出的判斷。電腦的圖形交互第一次改變了世界，而智慧手機的多點觸控，把移動互聯網時代和PC時代徹底區分開來。在全新的IoT時代，新的對話模式也將誕生。當更多的設備可以聯網時，觸屏之外，語音就是被寄予期望的下一個核心的入口級產品。

巨頭們所做的事情，無非是用智慧語音助手連接各種互聯網服務，音箱不過是它們選擇的載體之一。

智慧手機，已然成為我們延伸的身體“器官”之一，手機語音助手的開發自然也不甘落後，發起對巨頭們的挑戰。華為在美國的mate 9中載入了Alexa，而據彭博社報導，華為也正在研發自己的語音助手。在谷歌把語音助手整合進自己的智慧機之後，三星宣佈收購Viv Labs，

開發自己的語音助手Bixby。

然而，如今大多數智慧手機中的智慧語音助手，仍然處於一個尷尬的位置。即使廣為所知的Siri，也難免成為日常被“調戲”的對象，而其作為“助理”一面的功能，卻並未得到重點體現。從而它們也成為手機中，一個頗有些“雞肋”的存在。

而若要實現語音助手作為交互形態的下一代入口，進而建立平臺級生態，也必須要先解決一個問題：讓語音助手，能夠真正應用起來。

這也是奇點機智（Naturali）在考慮的問題。今年4月，樂視超級手機面世，其中的智慧語音助手，就是奇點機智所開發的“小不點”，它要解決的，就是智慧手機中語音助手的實用性問題——能夠深入應用底層，通過語音指令實現對手機內APP應用的操控。

為什麼Siri用不起來？

奇點機智的兩位創始人，鄔霄雲是紐約州立大學電腦博士，在谷歌研究院工作8年，主攻大規模機器學習和自然語言理解。

林德康是加拿大Alberta大學電腦教授，之前也曾在Google擔任高級管理科學家，主要研究方向是自然語言處理，也是華人圈少數幾個國際計算語言學會ACL Fellow之一。

奇點機智聯合創始人林德康教授

在離開穀歌的前幾年，林德康一直在主攻穀歌搜索的自動問答專案，針對使用者的問題，通過關鍵字匹配，將搜索結果中最優答案摘錄整合提供給用戶。而在研發過程中，在語義理解領域的積累之外，他們也注意到，語音辨識技術在過去幾年中經歷了巨大的飛躍，已經逐漸走向成熟，識別的準確度大大提升。一個交互形態改變的時代即將來臨。“語音辨識已經變得太容易了——技術走到了這個節點，我們認為，最好的創業時機來臨了。”他告訴黑智。

奇點機智給自己設立的一個很簡單的目標就是：連結人類對手機的需求和手機應用裡的各項功能。小不點就是奇點機智為安卓生態打造的智慧語音應用助手，樂視則是小不點的第一個企業客戶。

“它需要集成協力廠商APP的API才能調用，但這想要推廣，是個非常緩慢的過程。”林德康告訴黑智，“自從蘋果提出可以支持連接協力廠商應用到現在，仍然數量還很少。功能的限制，是語音助手沒有得到普及最主要的原因。”

而如果語音助手可以不必調用協力廠商APP的API，效仿“人的操作”，把“打開APP”這個功能，通過語音實現呢？“小不點”就利用了Android系統中的Accessibility功能，來解決語音助手的實用性問題。

對於那些由於視力、聽力或其他原因，不能方便使用手機的用戶，Android提供了Accessibility功能和服務説明他們操作設備，包括文字轉語音、觸覺回饋、手勢操作、軌跡球和手柄操作。

而小不點，就可以直接利用Accessibility提供的模擬用戶點擊功能，在使用者發出指令後，通過讀屏，進行虛擬點擊操作，不需要使用者親自動手，也無需調用協力廠商APP的API，實現自動點擊。

“小不點”發紅包的過程

通過這種方式，小不點可以自由操控用戶手機上的大部分常用APP。而一旦遇到小不點目前還沒有實現的APP操作，其中的智慧學習功能則可以發揮作用。當用戶啟動學習功能後，只需按照平時的步驟操作，小不點會自動記錄，使用者日後再次下達指令後，自動完成所有操作和跳轉。

這是和Siri、度秘等語音助手完全不同的模式。“和協力廠商APP進行談判，把它們的功能集成進來，對開發者們而言，也可能會引發他們的抵觸。”林德康說，“而現在我們並不需要調用他們的API，不會觸及他們的用戶和功能。而對我們而言，也會節省開發的難度和成本。”

語音+圖形對話模式相結合

自動學習、語音辨識和語義理解，是小不點背後的主要技術組成部分，均為奇點機智自主研發。林德康表示，採用自己的語音辨識技術，可以留存具備更多可能性的資訊，及時進行功能優化，同時，也為語音系統訓練積累更多的資料。而由於兩位創始人都擁有在谷歌專攻自然語言理解方向的背景，奇點機智在語義理解上，具備更加明顯的技術優勢。它能夠根據關鍵字的表達進行推理，瞭解用戶的真實意圖。

“這種對話是存在邊界的。”林德康說。相較聊天機器人的開放域對話系統，小不點的這種語音助手開發無疑難度是相對降低的，從而也能夠更加準確地理解用戶意圖，並達成實用性。

或許，小不點並不意味著極高的技術門檻，但是，其中，卻蘊含著奇點機智對未來對話模式的思考。而儘管語音交互將成為下一代流量入口，似乎已經是不可改變的趨勢，但林德康認為，這還不是一個談“取代”圖形的時候。“圖形介面仍然有著非常巨大的作用。對於人的資訊的輸出和輸入而言，資訊輸入視覺是最有效的，而資訊輸出，語音則是信息量最高的。我們是把語音和圖形交互入口結合起來，將資訊輸入和輸出最具效率的方式相結合，我認為，這是未來的一大趨勢。”

“我們選擇在智慧手機上率先實現，因為手機是最大的交互工具。”林德康說。而在理論上，奇點機智的技術，也可以在其他硬體終端上實現。在美國，Voice Labs曾經發佈一個研究結果顯示，97%的使用者會在不到兩周的時間裡對Alexa的新功能失去興趣。當然這並不意味著語音的失敗，而是因為在通向未來的場景革命中，語音只是對話模式的其中一種。雖然語音是最簡單、最自然的對話模式，但是人們80%的資訊還是依靠視覺獲取。從操作的簡單性和獲取資訊的效率性而言，觸控和圖形，仍然在其中起著重要的角色。

在國內，目前還沒有和小不點類似的產品出現。林德康表示，根據部分外傳的資訊顯示，目前只有三星的語音助手Bixby能夠實現和小不點類似的功能。但是否採用相同的方式，仍然還有待Bixby問世後才能驗證。但Bixby被透露的功能，這也意味著，奇點機智選擇的產品方向，得到了一定的驗證，那就是，下一代語音助手應該實現的是：全面覆蓋應用功能，簡化操作流程，方便深入的應用體驗。

“小不點”的自主學習功能

在小不點的平臺上，目前已經集成了大部分常用APP。而通過自動學習功能，手機用戶的每次教導學習，都會進入小不點的資料庫，從而讓它學會更多的功能。當使用者數量越多、資料越豐富，小不點的功能，也就相應增加，同時，能夠更加準確地回應用戶需求。

2014年11月，奇點機智創立之初，就獲得了真格基金100萬美元的天使輪融資；去年3月，奇點機智又獲得了襄禾資本和NEA資本500萬美元的A輪融資。目前，奇點機智正準備啟動下一輪融資。林德康表示，下一輪融資，奇點機智將重點將其用於技術研發，以及把小不點複製到其他手機機型上。

現在，奇點機智想做的，仍然還是通過小不點，實現語音助手的可用性，來改變用戶習慣。“現在我在外購物時，已經習慣了用語音助手來進行支付。而每次，都會有人非常感興趣地詢問。”林德康笑著說。“而當我們用得越來越多的時候，就會發生很有趣的變化。比如我們安裝了非常大量的應用，但我們不需要去記憶它的位置。當我們習慣了用助手來幫助我們處理，這樣的改變就不可逆了。”

針對使用者的問題，通過關鍵字匹配，將搜索結果中最優答案摘錄整合提供給用戶。而在研發過程中，在語義理解領域的積累之外，他們也注意到，語音辨識技術在過去幾年中經歷了巨大的飛躍，已經逐漸走向成熟，識別的準確度大大提升。一個交互形態改變的時代即將來臨。“語音辨識已經變得太容易了——技術走到了這個節點，我們認為，最好的創業時機來臨了。”他告訴黑智。

“小不點”發紅包的過程

語音+圖形對話模式相結合

“小不點”的自主學習功能