Synaptics Saleel：現有人機交互介面技術的創新應用，將為使用者帶來語音 AI 的沉浸式體驗｜WARE 2018

關於語音智慧硬體，大部分人都或多或少瞭解一些名聲響亮的產品商和技術提供商。殊不知，為了實現技術落地、並與產品服務實現無縫的結合，背後還有不少默默為之操心的技術開發提供商。而 Synaptics 就是這樣一家「產品背後的公司」，致力為智慧設備提供創新性和直觀式使用者體驗，擁有包括語音、生物識別、觸控、顯示、處理和成像的技術。

在此次峰會， Synaptics 全球副總裁兼語音和圖像部門總經理 Saleel Awsare 就「下一代環境感知語音 AI」進行了主題分享。

隨著語音、視覺等 AI 技術的發展，智慧設備也將得到變革，從過去人們需要主動學習怎麼使用設備，到現在人們在眾多設備（手機、平板等）之間自如控制。 Saleel 認為，在未來，智慧設備將在環境感知 AI 的驅動下適應用戶，在這過程中，語音交互將從事務性處理向環境感知處理轉變，它會自動識別用戶以及使用者環境，並根據對話內容提供相應的場景服務。

另外 Saleel 還進一步表示，僅僅需要創新性的想法和應用，利用 Synaptics 現有的語音、圖像、生物識別、擴展顯示等人機交互技術，我們將能創造出一個真正的沉浸式智慧人機交互體驗。

————————嘉賓演講實錄————————

演講嘉賓：Saleel Awsare / Synaptics 全球副總裁兼語音和圖像部門總經理

演講主題：語音、圖像、生物識別，

人機交互領域的技術趨勢和最新應用

作為一家致力於人機交互介面廠商， Synaptics 致力於交互技術的革新和應用

Synaptics 是一家致力於人機交互介面廠商，致力為智慧設備提供創新性和直觀式使用者體驗，擁有包括語音、生物識別、觸控、顯示、處理和成像的技術，已經在 PC、移動端手機、車載、IoT 等領域有豐厚的技術積累。

早在 2007 年，我們組建了語音技術團隊，專注於 Audiosmart；2012 年，全球首款支援語音功能的電視機發佈，搭載了 Synaptics AudioSmart 技術；2015 年， Synaptics 為主要 PC OEM 廠商提供語音技術合作體驗；

到了 2017 年， Synaptics 已與亞馬遜、微軟、百度、騰訊、SK Telecom、Korea Telecom、Naver、Kakao、NTT Docomo 等知名廠商合作發佈 AudioSmart 開發套件。

在過去一年， Synaptics 一共支持了 70 多個遠場語音產品的實現。囊括的產品包含智慧音箱、機器人、智慧冰箱、智慧燈、智慧車載配件等等。

作為一家人機交互介面技術開發提供商， Synaptics 致力於 Voice Product 多年，已經見證了語音人機交互技術在不同時代、在各類產品中的應用。

借助下一代環境感知語音 AI，智慧設備將得到革命性發展

從 PC 到移動互聯網，再到如今的物聯網時代，我們明顯感覺到人機界面技術正在發生變化。從穿孔卡、鍵盤、滑鼠、觸控，大家即將迎來語音交互的時代。

我們也瞭解到，在過去 4-5 年間， Siri 等語音助手主要被應用在手機移動端。而在這兩年裡，語音交互技術得到快速發展，並且正在滲透到我們生活的方方面面，達到「無處不在」的地步。

隨著語音、視覺等 AI 技術的發展，人機對話模式正在發生改變，而重要的是，

我們使用的智慧設備也在發生變革。從過去人們需要主動學習怎麼使用設備，到現在人們在眾多設備（手機、平板等）之間自如控制。

我們認為，能夠自動感知、適應使用者的 AI 設備是下一代設備的趨勢，人們不需要學習或接觸設備，而是設備反過來主動感知環境和用戶。其中，擁有自主學習能力的「環境感知語音 AI」在起到關鍵作用。

在這過程中，語音交互將從事務性處理向環境感知處理轉變，它會自動識別用戶以及使用者環境，並根據對話內容提供相應的場景服務。

環境感知語音 AI 在家庭、辦公、車載、動態（On The GO）等場景下的應用

在環境感知計算的作用下，環境感知語音 AI 能實現從各個感觀上「洞察」使用者狀態和需求，包括：

可以探測到用戶的注視，實現無縫交互。`
解讀用戶情緒，作出積極回應。
從人群中識別特定使用者的聲音和指令。
預估用戶的距離、語氣和情境。

另外，目前語音指令大多在雲端處理，未來，在智慧雲端的説明下，語音指令將實現在本地處理，以保障使用者隱私安全、提升語音 AI 的回應速度以及產品體驗。這也是語音 AI 交互模式的一大趨勢。

「無處不在」的語音 AI 被廣泛應用到家庭、工作、車載、On The Go 等場景，而相應的環境感知語音 AI 也必須具備識別用戶（包括多個不同使用者）、位置、對話情景的能力。

例如，在家庭場景下，用戶說「外面太冷了，我會留下看場電影」。試想一下，AI 會根據對話語境理解使用者需求並提供這樣的服務：溫控器會自動調高室內溫度，電視機會根據使用者喜好搜尋好一堆影片，烤箱會主動你是否需要準備一些爆米花……

同樣的，在工作（辦公）場景下：

在車載場景下：

在動態（On-The-Go）場景下：

在 Synaptics 現有的語音、圖像、生物識別等人機交互技術基礎上，打造出真正的沉浸式語音介面

針對下一代環境感知語音 AI，基於 Synaptics 現有的人機交互介面技術，我相信，創新的想法將使得這些技術得到巧妙的應用，並打造出一個真正的沉浸式語音介面，它擁有更智慧的邊緣計算能力。

對此，Synaptics 具備多年以來積累的觸控、圖像、視頻、生物識別、語音/音訊、顯示等人機交互介面技術，擁有著強大的基礎優勢。作為人機交互領域的探索者，Synaptics 將不斷挖掘技術趨勢和最新應用。

Q&A

Q1: 如何讓設備識別你的指令是對它還是針對朋友講話？

Saleel Awsare：我們的技術對環境的噪音做了很多過濾和篩選、區別，可以幫助機器識別到你的語音。在未來，我們會用一些 AI 技術，更好的判斷你是在對朋友講話還是對設備講話。我們這個技術現在叫 DSS。

Q2：設備怎麼識別聲音來自機器還是人？如果我把另外一個音箱放到音箱旁邊的時候，另外一個音箱會觸發這個音箱，怎麼辦？

Saleel Awsare：我們做的分離技術就旨在區分這兩者，人和機器識別的頻率和聲道都不一樣，這是其中的原理。目前，我們跟亞馬遜正在合作一個專案，就是確保設備在廣告播放的時候不被誤喚醒。在未來，我們會利用 AI 技術將聲音做出更好的區分。

Q：許多語音交互服務是在雲端運行，後續會把大部分應用都放到本地，這樣一來，不需要雲端也不需要 WiFi 和網路，這是通過什麼樣的技術來實現的呢？

Saleel Awsare：目前大部分語音交互都還是在雲端進行，下一步，通過機器學習，終端當地語系化的能力會得到提升，未來將實現一部分的本地處理。

整理、編輯：Jes / 深圳灣