Alexa學會了「回憶」，但這還只是機器「理解上下文」的一小步

時間＼2018-04-30

如果語音介面要取代鍵盤和觸控式螢幕，他們將不得不變得更聰明並處理好用戶隱私。

編譯 | 微胖

來源 | Scientificamerican

前幾天，亞馬遜推出了三個針對 Alexa 的改進方案，而且要在 5 月底之前實現這些功能。

其中重要的一個功能叫做「context carryover」（上下文轉攜）：當語音請求從一個轉向另外一個時，Alexa 可以「回憶」起之前的資訊。

也就是說，當用戶連續問幾個問題時，不需要在第二次發問時重複同一個資訊點。比如，問「Alexa，西雅圖的天氣怎麼樣?」之後接著問「這個週末呢?」，它可以理解到用戶要的還是西雅圖在週末的天氣情況。

利用深度學習模式在口頭語言理解流程中的優勢，它可以更自然地理解用戶的後續問題並作出恰當回應。

另外，Alexa 還將擁有一項新的記憶功能，可以幫助 Alexa 保存使用者指示它記住的信息，並加以提醒。

例如，通過發出類似「Alexa，請記住肖恩的生日是 6 月 20 日」這樣的指令，Alexa 就會回答：「好的，我會記得肖恩的生日是 6 月 20 日」。Alexa 也可以在當天向用戶自動發出提醒。

最後，亞馬遜還提高了 Alexa 的搜索和執行新「技能」的能力，這種新的「技能」與智慧手機應用程式相當。

例如，

詢問 Alexa 如何去除襯衫上的油污，就會啟動「汰漬劑」技能，通過去汙過程與用戶交談。

還有些技能幫 Alexa 用戶檢查信用卡餘額、獲得開盤的股票價格，或者只用幾句話就能把酒和飯菜搭配起來。

最近，《科學美國人》採訪了亞馬遜語音助手研發業務負責人 Ruhi Sarikaya。

他曾於週四在法國里昂舉行的 AI 會議上發表主題演講。Sarikaya 討論了語音辨識和自然語言處理的進步如何説明簡化 Alexa，使技術能夠更好地解釋用戶想要什麼。

《科學美國人》也就相關問題與他聊了聊。

語音會是我們與設備交流的主要方式，你是根據什麼做出這樣的判斷？

想想 1976 年吧。

蘋果 (Apple) 聯合創始人史蒂夫•沃茲尼亞克 (Steve Wozniak) 創建了第一台帶有顯示器和鍵盤的個人電腦。直到今天，人們仍然使用顯示器和鍵盤來與他們的大部分設備進行交互。

即使使用智慧手機，你要麼打字，要麼觸控式螢幕幕來獲取輸出。這是一個問題，

因為它實際上讓我們患了「葛優癱」。即使你可以四處走動，但注意力仍然集中在螢幕上。

這種情況會隨著語音技術變化而有所改變。原因有三個：

小型設備的計算能力增強; 收集和分析大量資料的能力; 以及機器學習的進步，特別是深度學習。這些類型的人工智慧演算法使語音辨識和自然語言理解更加準確。

想在消費產品中很好地使用語音介面，最大的挑戰是什麼？

主要集中在兩個層面：元件層面（component-level）和用戶體驗層面。

當環境相對安靜時，語音辨識準確率非常好。如果有背景雜音或很多人在說話，那麼我們仍然需要應對這個挑戰。多個人同時說話時，你需要能跟蹤不同的聲音。

至於理解自然語言，上下文語境是關鍵挑戰。

如果數位個人助理的任務僅限於少數領域或功能，例如，播放音樂，就很容易理解用戶的意圖。除此之外，如果還需要對電影、視頻和有聲讀物的資料進行篩選，如果接到一個突然的命令，「播放 X」這個指令的意思就會變得模棱兩可，因為它可以指這些任務中的任何一種。

與智慧設備設備交互，上下文語境為什麼那麼重要？

如果你和我正在聊天，我可能會把上次我們談話時的資訊代入。我們不需要重複我們之前討論過的一切，以實現無縫對話。

這對人們來說是很自然的。但是，當你和機器交談的時候卻不是這樣。現在，你必須使用精確的措辭才能被理解。

你可能認為如果一台機器足夠聰明，它將能夠從早期的對話中獲取資訊。

比如，如果問「Alexa，西雅圖的天氣怎麼樣?」之後接著問「這個週末怎麼樣?」，我希望聽到這個週末西雅圖天氣情況，但不會在第二個問題中明確說出來。

如果我問「Alexa，今天的排程是什麼?」系統利用存儲在日曆上的資訊會立刻作出反應。如果我接著問，「這個週末怎麼樣?」我希望這個週末能得到日曆資訊，而不是天氣資訊。

對於第二個問題，在沒有背景的情況下，可能會有許多種答案。這被稱為「會話上下文」，它允許機器根據當前的會話正確地回答問題。

機器如何學習理解上下文？

從接收語音命令的設備開始。

你不能在亞馬遜 Echo 上播放視頻，所以當使用者要求設備播放一個特定標題時，這就縮小了設備的選擇範圍。

您還可以使用該設備查看使用者的個人偏好，包括先前的請求和隨著時間推移給設備發出的其他命令。這就是機器學習發揮作用的地方。

背景雜音很大，如何提高 Alexa 的識別能力？

這是一個開放的問題，我們正在取得進展。過去致力於發展語音技術之後，我認為有幾種不同的方法：

一是先清理或移除背景雜訊，然後對剩下的資料進行語音辨識。當你這樣做的時候，一個副作用就是你可能刪除一些與語音本身相關的資料。

另一種技術是盡可能多的收集特定環境中的聲音，並配備系統地圖，或識別不同的聲音ーー無論是背景雜音還是語音。但挑戰在於，因為有這麼多不同的聲音，以至於很難確定它們的來源，尤其是電視機開著的時候。

亞馬遜如何使用 Alexa 使用者的資訊？

我只能談 Alexa 的機器學習部分。

機器學習依賴於從 Alexa 使用者收集的資料。我們不會使用所有這些資料ーー我們為某些類型做了標注，以便教 Alexa 識別不同的聲音線索、音調 (男性和女性) 和口音。我們的客戶是多樣化的，我們希望 Alexa 能夠識別不同的用戶。我們不能建立一種只適用於一類聲音的技術。

亞馬遜如何解決人們對 Alexa 隱私問題的關注？

Alexa 在雲端存儲使用者資訊，而不是設備本身比如 Echo 或者智慧手機。

消費者有能力刪除他們想要 Alexa 忘記的任何內容：應用程式和"管理你的內容和設備"網頁中使用到的任何資訊。

例如，你可以通過在 Alexa 應用程式中訪問「Settings」中的「History」來檢查與 Alexa 的語音交互，並刪除與你的帳戶相關的特定聲音記錄。

如果接到一個突然的命令，「播放 X」這個指令的意思就會變得模棱兩可，因為它可以指這些任務中的任何一種。