Alexa學會了「回憶」,但這還只是機器「理解上下文」的一小步
如果語音介面要取代鍵盤和觸控式螢幕,他們將不得不變得更聰明並處理好用戶隱私。
編譯 | 微胖
來源 | Scientificamerican
前幾天,亞馬遜推出了三個針對 Alexa 的改進方案,而且要在 5 月底之前實現這些功能。
其中重要的一個功能叫做「context carryover」(上下文轉攜):當語音請求從一個轉向另外一個時,Alexa 可以「回憶」起之前的資訊。
也就是說,當用戶連續問幾個問題時,不需要在第二次發問時重複同一個資訊點。比如,問「Alexa,西雅圖的天氣怎麼樣?」之後接著問「這個週末呢?」,它可以理解到用戶要的還是西雅圖在週末的天氣情況。
利用深度學習模式在口頭語言理解流程中的優勢,它可以更自然地理解用戶的後續問題並作出恰當回應。
另外,Alexa 還將擁有一項新的記憶功能,可以幫助 Alexa 保存使用者指示它記住的信息,並加以提醒。
例如,通過發出類似「Alexa,請記住肖恩的生日是 6 月 20 日」這樣的指令,Alexa 就會回答:「好的,我會記得肖恩的生日是 6 月 20 日」。Alexa 也可以在當天向用戶自動發出提醒。
最後,亞馬遜還提高了 Alexa 的搜索和執行新「技能」的能力,這種新的「技能」與智慧手機應用程式相當。
例如,
還有些技能幫 Alexa 用戶檢查信用卡餘額、獲得開盤的股票價格,或者只用幾句話就能把酒和飯菜搭配起來。
最近,《科學美國人》採訪了亞馬遜語音助手研發業務負責人 Ruhi Sarikaya。
他曾於週四在法國里昂舉行的 AI 會議上發表主題演講。Sarikaya 討論了語音辨識和自然語言處理的進步如何説明簡化 Alexa,使技術能夠更好地解釋用戶想要什麼。
語音會是我們與設備交流的主要方式,你是根據什麼做出這樣的判斷?
想想 1976 年吧。
蘋果 (Apple) 聯合創始人史蒂夫•沃茲尼亞克 (Steve Wozniak) 創建了第一台帶有顯示器和鍵盤的個人電腦。直到今天,人們仍然使用顯示器和鍵盤來與他們的大部分設備進行交互。
即使使用智慧手機,你要麼打字,要麼觸控式螢幕幕來獲取輸出。這是一個問題,
這種情況會隨著語音技術變化而有所改變。原因有三個:
小型設備的計算能力增強; 收集和分析大量資料的能力; 以及機器學習的進步,特別是深度學習。這些類型的人工智慧演算法使語音辨識和自然語言理解更加準確。
想在消費產品中很好地使用語音介面,最大的挑戰是什麼?
主要集中在兩個層面:元件層面(component-level)和用戶體驗層面。
當環境相對安靜時,語音辨識準確率非常好。如果有背景雜音或很多人在說話,那麼我們仍然需要應對這個挑戰。多個人同時說話時,你需要能跟蹤不同的聲音。
至於理解自然語言,上下文語境是關鍵挑戰。
如果數位個人助理的任務僅限於少數領域或功能,例如,播放音樂,就很容易理解用戶的意圖。除此之外,如果還需要對電影、視頻和有聲讀物的資料進行篩選,如果接到一個突然的命令,「播放 X」這個指令的意思就會變得模棱兩可,因為它可以指這些任務中的任何一種。
與智慧設備設備交互,上下文語境為什麼那麼重要?
如果你和我正在聊天,我可能會把上次我們談話時的資訊代入。我們不需要重複我們之前討論過的一切,以實現無縫對話。
這對人們來說是很自然的。但是,當你和機器交談的時候卻不是這樣。現在,你必須使用精確的措辭才能被理解。
你可能認為如果一台機器足夠聰明,它將能夠從早期的對話中獲取資訊。
比如,如果問「Alexa,西雅圖的天氣怎麼樣?」之後接著問「這個週末怎麼樣?」,我希望聽到這個週末西雅圖天氣情況,但不會在第二個問題中明確說出來。
如果我問「Alexa,今天的排程是什麼?」系統利用存儲在日曆上的資訊會立刻作出反應。如果我接著問,「這個週末怎麼樣?」我希望這個週末能得到日曆資訊,而不是天氣資訊。
對於第二個問題,在沒有背景的情況下,可能會有許多種答案。這被稱為「會話上下文」,它允許機器根據當前的會話正確地回答問題。
機器如何學習理解上下文?
從接收語音命令的設備開始。
你不能在亞馬遜 Echo 上播放視頻,所以當使用者要求設備播放一個特定標題時,這就縮小了設備的選擇範圍。
您還可以使用該設備查看使用者的個人偏好,包括先前的請求和隨著時間推移給設備發出的其他命令。這就是機器學習發揮作用的地方。
背景雜音很大,如何提高 Alexa 的識別能力?
這是一個開放的問題,我們正在取得進展。過去致力於發展語音技術之後,我認為有幾種不同的方法:
一是先清理或移除背景雜訊,然後對剩下的資料進行語音辨識。當你這樣做的時候,一個副作用就是你可能刪除一些與語音本身相關的資料。
另一種技術是盡可能多的收集特定環境中的聲音,並配備系統地圖,或識別不同的聲音ーー無論是背景雜音還是語音。但挑戰在於,因為有這麼多不同的聲音,以至於很難確定它們的來源,尤其是電視機開著的時候。
亞馬遜如何使用 Alexa 使用者的資訊?
我只能談 Alexa 的機器學習部分。
機器學習依賴於從 Alexa 使用者收集的資料。我們不會使用所有這些資料ーー我們為某些類型做了標注,以便教 Alexa 識別不同的聲音線索、音調 (男性和女性) 和口音。我們的客戶是多樣化的,我們希望 Alexa 能夠識別不同的用戶。我們不能建立一種只適用於一類聲音的技術。
亞馬遜如何解決人們對 Alexa 隱私問題的關注?
Alexa 在雲端存儲使用者資訊,而不是設備本身比如 Echo 或者智慧手機。
消費者有能力刪除他們想要 Alexa 忘記的任何內容:應用程式和"管理你的內容和設備"網頁中使用到的任何資訊。
例如,你可以通過在 Alexa 應用程式中訪問「Settings」中的「History」來檢查與 Alexa 的語音交互,並刪除與你的帳戶相關的特定聲音記錄。
如果接到一個突然的命令,「播放 X」這個指令的意思就會變得模棱兩可,因為它可以指這些任務中的任何一種。與智慧設備設備交互,上下文語境為什麼那麼重要?
如果你和我正在聊天,我可能會把上次我們談話時的資訊代入。我們不需要重複我們之前討論過的一切,以實現無縫對話。
這對人們來說是很自然的。但是,當你和機器交談的時候卻不是這樣。現在,你必須使用精確的措辭才能被理解。
你可能認為如果一台機器足夠聰明,它將能夠從早期的對話中獲取資訊。
比如,如果問「Alexa,西雅圖的天氣怎麼樣?」之後接著問「這個週末怎麼樣?」,我希望聽到這個週末西雅圖天氣情況,但不會在第二個問題中明確說出來。
如果我問「Alexa,今天的排程是什麼?」系統利用存儲在日曆上的資訊會立刻作出反應。如果我接著問,「這個週末怎麼樣?」我希望這個週末能得到日曆資訊,而不是天氣資訊。
對於第二個問題,在沒有背景的情況下,可能會有許多種答案。這被稱為「會話上下文」,它允許機器根據當前的會話正確地回答問題。
機器如何學習理解上下文?
從接收語音命令的設備開始。
你不能在亞馬遜 Echo 上播放視頻,所以當使用者要求設備播放一個特定標題時,這就縮小了設備的選擇範圍。
您還可以使用該設備查看使用者的個人偏好,包括先前的請求和隨著時間推移給設備發出的其他命令。這就是機器學習發揮作用的地方。
背景雜音很大,如何提高 Alexa 的識別能力?
這是一個開放的問題,我們正在取得進展。過去致力於發展語音技術之後,我認為有幾種不同的方法:
一是先清理或移除背景雜訊,然後對剩下的資料進行語音辨識。當你這樣做的時候,一個副作用就是你可能刪除一些與語音本身相關的資料。
另一種技術是盡可能多的收集特定環境中的聲音,並配備系統地圖,或識別不同的聲音ーー無論是背景雜音還是語音。但挑戰在於,因為有這麼多不同的聲音,以至於很難確定它們的來源,尤其是電視機開著的時候。
亞馬遜如何使用 Alexa 使用者的資訊?
我只能談 Alexa 的機器學習部分。
機器學習依賴於從 Alexa 使用者收集的資料。我們不會使用所有這些資料ーー我們為某些類型做了標注,以便教 Alexa 識別不同的聲音線索、音調 (男性和女性) 和口音。我們的客戶是多樣化的,我們希望 Alexa 能夠識別不同的用戶。我們不能建立一種只適用於一類聲音的技術。
亞馬遜如何解決人們對 Alexa 隱私問題的關注?
Alexa 在雲端存儲使用者資訊,而不是設備本身比如 Echo 或者智慧手機。
消費者有能力刪除他們想要 Alexa 忘記的任何內容:應用程式和"管理你的內容和設備"網頁中使用到的任何資訊。
例如,你可以通過在 Alexa 應用程式中訪問「Settings」中的「History」來檢查與 Alexa 的語音交互,並刪除與你的帳戶相關的特定聲音記錄。