華文網

巨頭們的下一戰:手機語音助手,這家公司要做的是讓它“用起來”

在全新的IoT時代,新的對話模式也將誕生。當更多的設備可以聯網時,

觸屏之外,語音就是被寄予期望的下一個核心的入口級產品。“語音辨識已經變得太容易了——技術走到了這個節點,我們認為,最好的創業時機來臨了。”林德康說。

作者 | 楊潔

編輯 | 李白

李飛飛說,谷歌下一步致力的,是讓AI民主化。

在它真正實現之前,智慧語音助手,卻率先走入了一個高☆禁☆潮。植入了Alexa的亞馬遜Echo,成為互聯網行業近幾年內最重要的產品之一;穀歌的Google Home,也在今年的穀歌I/O大會上表示加入了電話功能;微軟的Cortana音箱在近日亮相;而據說,

蘋果Siri的音箱也即將問世了。

這場語音交互的狂歡,是基於交互形態改變作出的判斷。電腦的圖形交互第一次改變了世界,而智慧手機的多點觸控,把移動互聯網時代和PC時代徹底區分開來。在全新的IoT時代,新的對話模式也將誕生。當更多的設備可以聯網時,觸屏之外,語音就是被寄予期望的下一個核心的入口級產品。

巨頭們所做的事情,無非是用智慧語音助手連接各種互聯網服務,音箱不過是它們選擇的載體之一。

智慧手機,已然成為我們延伸的身體“器官”之一,手機語音助手的開發自然也不甘落後,發起對巨頭們的挑戰。華為在美國的mate 9中載入了Alexa,而據彭博社報導,華為也正在研發自己的語音助手。在谷歌把語音助手整合進自己的智慧機之後,三星宣佈收購Viv Labs,

開發自己的語音助手Bixby。

然而,如今大多數智慧手機中的智慧語音助手,仍然處於一個尷尬的位置。即使廣為所知的Siri,也難免成為日常被“調戲”的對象,而其作為“助理”一面的功能,卻並未得到重點體現。從而它們也成為手機中,一個頗有些“雞肋”的存在。

而若要實現語音助手作為交互形態的下一代入口,進而建立平臺級生態,也必須要先解決一個問題:讓語音助手,能夠真正應用起來。

這也是奇點機智(Naturali)在考慮的問題。今年4月,樂視超級手機面世,其中的智慧語音助手,就是奇點機智所開發的“小不點”,它要解決的,就是智慧手機中語音助手的實用性問題——能夠深入應用底層,通過語音指令實現對手機內APP應用的操控。

為什麼Siri用不起來?

奇點機智的兩位創始人,鄔霄雲是紐約州立大學電腦博士,在谷歌研究院工作8年,主攻大規模機器學習和自然語言理解。

林德康是加拿大Alberta大學電腦教授,之前也曾在Google擔任高級管理科學家,主要研究方向是自然語言處理,也是華人圈少數幾個國際計算語言學會ACL Fellow之一。

奇點機智聯合創始人 林德康教授

在離開穀歌的前幾年,林德康一直在主攻穀歌搜索的自動問答專案,針對使用者的問題,通過關鍵字匹配,將搜索結果中最優答案摘錄整合提供給用戶。而在研發過程中,在語義理解領域的積累之外,他們也注意到,語音辨識技術在過去幾年中經歷了巨大的飛躍,已經逐漸走向成熟,識別的準確度大大提升。一個交互形態改變的時代即將來臨。“語音辨識已經變得太容易了——技術走到了這個節點,我們認為,最好的創業時機來臨了。”他告訴黑智。

奇點機智給自己設立的一個很簡單的目標就是:連結人類對手機的需求和手機應用裡的各項功能。小不點就是奇點機智為安卓生態打造的智慧語音應用助手,樂視則是小不點的第一個企業客戶。

“它需要集成協力廠商APP的API才能調用,但這想要推廣,是個非常緩慢的過程。”林德康告訴黑智,“自從蘋果提出可以支持連接協力廠商應用到現在,仍然數量還很少。功能的限制,是語音助手沒有得到普及最主要的原因。”

而如果語音助手可以不必調用協力廠商APP的API,效仿“人的操作”,把“打開APP”這個功能,通過語音實現呢?“小不點”就利用了Android系統中的Accessibility功能,來解決語音助手的實用性問題。

對於那些由於視力、聽力或其他原因,不能方便使用手機的用戶,Android提供了Accessibility功能和服務説明他們操作設備,包括文字轉語音、觸覺回饋、手勢操作、軌跡球和手柄操作。

而小不點,就可以直接利用Accessibility提供的模擬用戶點擊功能,在使用者發出指令後,通過讀屏,進行虛擬點擊操作,不需要使用者親自動手,也無需調用協力廠商APP的API,實現自動點擊。

“小不點”發紅包的過程

通過這種方式,小不點可以自由操控用戶手機上的大部分常用APP。而一旦遇到小不點目前還沒有實現的APP操作,其中的智慧學習功能則可以發揮作用。當用戶啟動學習功能後,只需按照平時的步驟操作,小不點會自動記錄,使用者日後再次下達指令後,自動完成所有操作和跳轉。

這是和Siri、度秘等語音助手完全不同的模式。“和協力廠商APP進行談判,把它們的功能集成進來,對開發者們而言,也可能會引發他們的抵觸。”林德康說,“而現在我們並不需要調用他們的API,不會觸及他們的用戶和功能。而對我們而言,也會節省開發的難度和成本。”

語音+圖形對話模式相結合

自動學習、語音辨識和語義理解,是小不點背後的主要技術組成部分,均為奇點機智自主研發。林德康表示,採用自己的語音辨識技術,可以留存具備更多可能性的資訊,及時進行功能優化,同時,也為語音系統訓練積累更多的資料。而由於兩位創始人都擁有在谷歌專攻自然語言理解方向的背景,奇點機智在語義理解上,具備更加明顯的技術優勢。它能夠根據關鍵字的表達進行推理,瞭解用戶的真實意圖。

“這種對話是存在邊界的。”林德康說。相較聊天機器人的開放域對話系統,小不點的這種語音助手開發無疑難度是相對降低的,從而也能夠更加準確地理解用戶意圖,並達成實用性。

或許,小不點並不意味著極高的技術門檻,但是,其中,卻蘊含著奇點機智對未來對話模式的思考。而儘管語音交互將成為下一代流量入口,似乎已經是不可改變的趨勢,但林德康認為,這還不是一個談“取代”圖形的時候。“圖形介面仍然有著非常巨大的作用。對於人的資訊的輸出和輸入而言,資訊輸入視覺是最有效的,而資訊輸出,語音則是信息量最高的。我們是把語音和圖形交互入口結合起來,將資訊輸入和輸出最具效率的方式相結合,我認為,這是未來的一大趨勢。”

“我們選擇在智慧手機上率先實現,因為手機是最大的交互工具。”林德康說。而在理論上,奇點機智的技術,也可以在其他硬體終端上實現。在美國,Voice Labs曾經發佈一個研究結果顯示,97%的使用者會在不到兩周的時間裡對Alexa的新功能失去興趣。當然這並不意味著語音的失敗,而是因為在通向未來的場景革命中,語音只是對話模式的其中一種。雖然語音是最簡單、最自然的對話模式,但是人們80%的資訊還是依靠視覺獲取。從操作的簡單性和獲取資訊的效率性而言,觸控和圖形,仍然在其中起著重要的角色。

在國內,目前還沒有和小不點類似的產品出現。林德康表示,根據部分外傳的資訊顯示,目前只有三星的語音助手Bixby能夠實現和小不點類似的功能。但是否採用相同的方式,仍然還有待Bixby問世後才能驗證。但Bixby被透露的功能,這也意味著,奇點機智選擇的產品方向,得到了一定的驗證,那就是,下一代語音助手應該實現的是:全面覆蓋應用功能,簡化操作流程,方便深入的應用體驗。

“小不點”的自主學習功能

在小不點的平臺上,目前已經集成了大部分常用APP。而通過自動學習功能,手機用戶的每次教導學習,都會進入小不點的資料庫,從而讓它學會更多的功能。當使用者數量越多、資料越豐富,小不點的功能,也就相應增加,同時,能夠更加準確地回應用戶需求。

2014年11月,奇點機智創立之初,就獲得了真格基金100萬美元的天使輪融資;去年3月,奇點機智又獲得了襄禾資本和NEA資本500萬美元的A輪融資。目前,奇點機智正準備啟動下一輪融資。林德康表示,下一輪融資,奇點機智將重點將其用於技術研發,以及把小不點複製到其他手機機型上。

現在,奇點機智想做的,仍然還是通過小不點,實現語音助手的可用性,來改變用戶習慣。“現在我在外購物時,已經習慣了用語音助手來進行支付。而每次,都會有人非常感興趣地詢問。”林德康笑著說。“而當我們用得越來越多的時候,就會發生很有趣的變化。比如我們安裝了非常大量的應用,但我們不需要去記憶它的位置。當我們習慣了用助手來幫助我們處理,這樣的改變就不可逆了。”

針對使用者的問題,通過關鍵字匹配,將搜索結果中最優答案摘錄整合提供給用戶。而在研發過程中,在語義理解領域的積累之外,他們也注意到,語音辨識技術在過去幾年中經歷了巨大的飛躍,已經逐漸走向成熟,識別的準確度大大提升。一個交互形態改變的時代即將來臨。“語音辨識已經變得太容易了——技術走到了這個節點,我們認為,最好的創業時機來臨了。”他告訴黑智。

奇點機智給自己設立的一個很簡單的目標就是:連結人類對手機的需求和手機應用裡的各項功能。小不點就是奇點機智為安卓生態打造的智慧語音應用助手,樂視則是小不點的第一個企業客戶。

“它需要集成協力廠商APP的API才能調用,但這想要推廣,是個非常緩慢的過程。”林德康告訴黑智,“自從蘋果提出可以支持連接協力廠商應用到現在,仍然數量還很少。功能的限制,是語音助手沒有得到普及最主要的原因。”

而如果語音助手可以不必調用協力廠商APP的API,效仿“人的操作”,把“打開APP”這個功能,通過語音實現呢?“小不點”就利用了Android系統中的Accessibility功能,來解決語音助手的實用性問題。

對於那些由於視力、聽力或其他原因,不能方便使用手機的用戶,Android提供了Accessibility功能和服務説明他們操作設備,包括文字轉語音、觸覺回饋、手勢操作、軌跡球和手柄操作。

而小不點,就可以直接利用Accessibility提供的模擬用戶點擊功能,在使用者發出指令後,通過讀屏,進行虛擬點擊操作,不需要使用者親自動手,也無需調用協力廠商APP的API,實現自動點擊。

“小不點”發紅包的過程

通過這種方式,小不點可以自由操控用戶手機上的大部分常用APP。而一旦遇到小不點目前還沒有實現的APP操作,其中的智慧學習功能則可以發揮作用。當用戶啟動學習功能後,只需按照平時的步驟操作,小不點會自動記錄,使用者日後再次下達指令後,自動完成所有操作和跳轉。

這是和Siri、度秘等語音助手完全不同的模式。“和協力廠商APP進行談判,把它們的功能集成進來,對開發者們而言,也可能會引發他們的抵觸。”林德康說,“而現在我們並不需要調用他們的API,不會觸及他們的用戶和功能。而對我們而言,也會節省開發的難度和成本。”

語音+圖形對話模式相結合

自動學習、語音辨識和語義理解,是小不點背後的主要技術組成部分,均為奇點機智自主研發。林德康表示,採用自己的語音辨識技術,可以留存具備更多可能性的資訊,及時進行功能優化,同時,也為語音系統訓練積累更多的資料。而由於兩位創始人都擁有在谷歌專攻自然語言理解方向的背景,奇點機智在語義理解上,具備更加明顯的技術優勢。它能夠根據關鍵字的表達進行推理,瞭解用戶的真實意圖。

“這種對話是存在邊界的。”林德康說。相較聊天機器人的開放域對話系統,小不點的這種語音助手開發無疑難度是相對降低的,從而也能夠更加準確地理解用戶意圖,並達成實用性。

或許,小不點並不意味著極高的技術門檻,但是,其中,卻蘊含著奇點機智對未來對話模式的思考。而儘管語音交互將成為下一代流量入口,似乎已經是不可改變的趨勢,但林德康認為,這還不是一個談“取代”圖形的時候。“圖形介面仍然有著非常巨大的作用。對於人的資訊的輸出和輸入而言,資訊輸入視覺是最有效的,而資訊輸出,語音則是信息量最高的。我們是把語音和圖形交互入口結合起來,將資訊輸入和輸出最具效率的方式相結合,我認為,這是未來的一大趨勢。”

“我們選擇在智慧手機上率先實現,因為手機是最大的交互工具。”林德康說。而在理論上,奇點機智的技術,也可以在其他硬體終端上實現。在美國,Voice Labs曾經發佈一個研究結果顯示,97%的使用者會在不到兩周的時間裡對Alexa的新功能失去興趣。當然這並不意味著語音的失敗,而是因為在通向未來的場景革命中,語音只是對話模式的其中一種。雖然語音是最簡單、最自然的對話模式,但是人們80%的資訊還是依靠視覺獲取。從操作的簡單性和獲取資訊的效率性而言,觸控和圖形,仍然在其中起著重要的角色。

在國內,目前還沒有和小不點類似的產品出現。林德康表示,根據部分外傳的資訊顯示,目前只有三星的語音助手Bixby能夠實現和小不點類似的功能。但是否採用相同的方式,仍然還有待Bixby問世後才能驗證。但Bixby被透露的功能,這也意味著,奇點機智選擇的產品方向,得到了一定的驗證,那就是,下一代語音助手應該實現的是:全面覆蓋應用功能,簡化操作流程,方便深入的應用體驗。

“小不點”的自主學習功能

在小不點的平臺上,目前已經集成了大部分常用APP。而通過自動學習功能,手機用戶的每次教導學習,都會進入小不點的資料庫,從而讓它學會更多的功能。當使用者數量越多、資料越豐富,小不點的功能,也就相應增加,同時,能夠更加準確地回應用戶需求。

2014年11月,奇點機智創立之初,就獲得了真格基金100萬美元的天使輪融資;去年3月,奇點機智又獲得了襄禾資本和NEA資本500萬美元的A輪融資。目前,奇點機智正準備啟動下一輪融資。林德康表示,下一輪融資,奇點機智將重點將其用於技術研發,以及把小不點複製到其他手機機型上。

現在,奇點機智想做的,仍然還是通過小不點,實現語音助手的可用性,來改變用戶習慣。“現在我在外購物時,已經習慣了用語音助手來進行支付。而每次,都會有人非常感興趣地詢問。”林德康笑著說。“而當我們用得越來越多的時候,就會發生很有趣的變化。比如我們安裝了非常大量的應用,但我們不需要去記憶它的位置。當我們習慣了用助手來幫助我們處理,這樣的改變就不可逆了。”