華文網

聽清、聽懂、滿足:DuerOS 整體架構最全解剖

7月5日,百度 AI 開發者大會。還不到下午一點半,對話式人工智慧分論壇已經人滿為患,A 廳的保安堵著門,出來一個才會放一個進去。在這場下午兩點開始,總共耗時三個半小時的分論壇中,

先後換了三位主講人,才把景鯤所講的“聽清、聽懂、滿足”的 DuerOS 整體架構講完。

差不多同一時刻,阿裡也在北京召開發佈會,發佈了旗下第一款智慧音箱。此前已經有不少好事媒體紛紛猜測,群眾舉瓜圍觀,畢竟巨頭分庭抗禮的戲碼沒有人會厭倦。

雷鋒網整理了百度分論壇的全部內容,並精選出與 DuerOS 直接相關的資訊,試圖清楚的回答“DuerOS是什麼” 的問題,或許這也是全閘道於 DuerOS 最全面的解剖:

DuerOS 整體架構

DuerOS 的整體架構包括三層:中間層為核心層,即對話系統;最上層為應用層,即智慧設備開放平臺;最底層為能力層,即技能開放平臺。

所謂的核心層,包括了從語音辨識到語音播報再到螢幕顯示的一個完整交互流程,以及背後支撐交互的自然語言理解、對話狀態控制、自然語言生成、搜索等等核心技術,

這些技術支撐著上下兩層的實現。

所謂的應用層,則是為協力廠商廠商提供包括核心接入元件、晶片模組、麥克風陣列等的開發套件,以及包括工業設計、結構設計、音腔設計在內的參考設計方案。

所謂的能力層,則是面向開發者,提供了包括了原生技能和協力廠商技能在內的技能開放平臺,開發者可以通過技能工具,

來創建並發佈基於 DuerOS 的技能。

三層之間的結合處,分別是對話服務和技能框架兩個介面,也是整個 DuerOS 的核心介面,前者為終端設備提供了各項支援請求,體現 DuerOS 的終端能力,後者為協力廠商開發者豐富的創建方式,體現 DuerOS 的技能開發能力。

為了更清楚的理解,針對對話服務與技術框架,百度直接拿 DuerOS 和 Andriod 系統做了對比:

如同電腦、平板在 Android 系統上具備觸摸的交互功能一樣,音箱、電視、車載設備搭載了 DuerOS 後,就能具備智慧語音對話的交互功能。

如同 Android 設備驅動程式介面,定義能夠運行的基本硬體和對話模式一樣,DuerOS 的對話系統則定義著運行 DuerOS 需要具備的終端能力,以及使用者通過設備和 DuerOS 溝通時的對話模式。

如同開發者基於 Android 應用框架能夠開發 App 一樣,

協力廠商開發者也可以基於 DuerOS 的技能框架開發技能,在搭載 DuerOS 的智慧設備上運行。

舉例來說:

搭載 DuerOS 的電視,具備了螢幕顯示的能力,當一個設備具備了螢幕顯示能力的時,DuerOS 就可以回應這種服務的請求,識別之後通過螢幕告訴使用者正確的答案。搭載 DuerOS 的手機,使用者就可以通過語音操作打電話給家人或者向餐館訂餐。搭載 DuerOS 的汽車,具備車輛控制功能,你可以跟汽車說天太熱了,把天窗打開,把空調調到19度。這是 DuerOS 支援的協定具備多種多樣的終端能力。

針對技術框架,DuerOS 提供標準化的介面,協力廠商開發者甚至可以一行代碼都不編寫,就能創造標準化的技能,只要提供內容即可。針對需要個性化創造的開發者,DuerOS 提供了豐富的技能接入,開發者不需要懂自然語言處理和深度學習,就能創造非常自如的語音交互技能。

除了智慧創建工具之外,DuerOS 還提供全套平臺工具,覆蓋從創建、配置到百度雲部署、測試、發佈的整個生命週期。通過 DuerOS 的技能框架,百度把 DuerOS 的原生技能開發能力、自然語言處理能力、對話管理能力等全部開放給了協力廠商開發者。

核心層:對話系統

當使用者開始和 DuerOS 說話時,它的工作流程是這樣的:

使用者的語音先傳到 ASR 語音辨識模組,通過該模組,設備聽清使用者的語言,將它轉為文字;

轉成的文字經過相應模組的分析、識別和理解,並放在整個對話上下文當中做充分識別和理解,明確語義。

當 DuerOS 聽懂之後,則會調用合適的原生技能或協力廠商技能來滿足使用者,通過 TTS 語音播報將結果給到使用者,如果設備有螢幕,則會給出適合設備螢幕大小形狀的展示結果。

經過這樣的工作流程,DuerOS 的對話系統可以通過音箱、電視、車機等設備,應用在多種場景中。之所以能夠有好的聽清、聽懂效果,百度認為主要歸功於三個方面:資料多、技術深、內容廣。

所謂的資料指的是百度擁有龐大的知識圖譜、需求圖譜、網頁圖譜、地理資訊圖譜及使用者畫像,技術則指的是十餘年裡百度所積累的自然語言處理、對話控制、對話管理、自然語言生成、搜索等技術,而內容指的是百度擁有的超過10000個資訊垂類內容。

智慧設備開放平臺

官方給出的智慧設備開放平臺的目標是“上手”最容易的設備平臺。簡單而言,就是對於協力廠商來說, 直接把百度給出的方案拿過來套上用,就可以了。但針對需求,百度還是給出了幾個版本的開發套件:

個人版-針對開發者

有趣的是,在個人版裡,百度提供了一個趣味組裝圖紙,讓開發者動手組裝。個人版既保留了一些自主行性,也節省了大量的時間,確實非常容易“上手”。

標準版-針對產品廠商

針對產品廠商需要穩定、可靠、大規模生產的需求,百度給出了“標準”答案。標準版開發套件完全按照 產品級要求研發,包括 4Mic 拾音板、MTK8516 主機板,Wi-Fi/BT+喇叭,終端軟體為 Linux+DuerOS SDK+終端應用,它的目標是開箱即用。

此外,百度還聯合設計團隊推出了標準版產品的參考設計,同時由來自手機團隊資深結構工程師專門做了結構化的設計,由資深的電聲工程師調整了電路效果,甚至和音箱代工廠制定了完整的工藝,貼上商標就可以對外銷售。

輕量版-針對特殊廠商

針對有些特殊要求的廠商,比如產品需要電池系統、需要低功耗、需要放到已有產品中,同時不希望增加成本等情況,百度則提供了輕量版開發套件。

發佈會中提到了 ARM 和 DevKit 合作的兩款專門支持 DevKit 和 ARMmbed 的解決方案,Cortex 為核心的解決方案,非常省電的,作為即時操作系統,配置也相當靈活,既有單板方案也有雙板。套件裡是高度整合的 SoC 系統,全部裝在一個單晶片上,本身就保證了低成本,小體積,甚至只有硬幣的大小。

協力廠商方案

除了上述三個百度提供的版本方案外,還和業界一些協力廠商廠商做了合作,讓 DuerOS 融合協力廠商解決方案,這其中包括了聲智科技、先聲互聯、Intel、Rockchip、Qualcomm 等,還有更多正在進行中,沒有完工的廠商。

與這些設備解決方案配套的,是一款基於手機的 App——小度之家。據雷鋒網瞭解,在以語音交互為主的設備上,有兩個很常見的問題,一是配網不方便,二是設置不方便。通過小度之家 App,這兩個問題都可以得到徹底解決。在這個 App 上,一方面可以看到操作記錄,另一方面也支援付費功能。更重要的是,將來會有更多的協力廠商技能會出現在這個 App 上。

技能開放平臺

技能開放平臺分為三個部分,一個部分是百度提供的原聲技能,第二個部分是為協力廠商開放的技能工具,第三個部分是由開發者開發的協力廠商技能。

這些技能綜合起來,就是為了讓語音交互設備更好用,具有更多功能,讓用戶聽懂並得到滿足。雷鋒網瞭解到,百度的原聲技能覆蓋了從娛樂到生活,從資訊到工具十個大類,超過100個子類,且還在不斷增加。

通過開發工具,開發者可以開發協力廠商技能,百度還提供了標準的技能範本,可以説明開發者無門檻的創建技能。從開始創建到最終發佈,都有百度的技術支援。而上傳到技能商店的技能,終端使用者都可以根據自己的需要來選擇或者購買喜歡的技能,平臺中的“監控”功能,還可以為開發者優化技能提供決策資料。

小結

如果用決定論來理解百度今日對“作業系統”的執念,或許想想它曾錯失的移動互聯網時代就能夠理解。希望這是深刻反思後看清楚的方向,而不是某種矯枉過正的偏執。但無論如何,正如一位前百度員工說的那樣,“我只相信技術”。此刻的百度,或許最接近李彥宏心目中的百度,或許也是國內最相信技術的大公司。

你可以跟汽車說天太熱了,把天窗打開,把空調調到19度。這是 DuerOS 支援的協定具備多種多樣的終端能力。

針對技術框架,DuerOS 提供標準化的介面,協力廠商開發者甚至可以一行代碼都不編寫,就能創造標準化的技能,只要提供內容即可。針對需要個性化創造的開發者,DuerOS 提供了豐富的技能接入,開發者不需要懂自然語言處理和深度學習,就能創造非常自如的語音交互技能。

除了智慧創建工具之外,DuerOS 還提供全套平臺工具,覆蓋從創建、配置到百度雲部署、測試、發佈的整個生命週期。通過 DuerOS 的技能框架,百度把 DuerOS 的原生技能開發能力、自然語言處理能力、對話管理能力等全部開放給了協力廠商開發者。

核心層:對話系統

當使用者開始和 DuerOS 說話時,它的工作流程是這樣的:

使用者的語音先傳到 ASR 語音辨識模組,通過該模組,設備聽清使用者的語言,將它轉為文字;

轉成的文字經過相應模組的分析、識別和理解,並放在整個對話上下文當中做充分識別和理解,明確語義。

當 DuerOS 聽懂之後,則會調用合適的原生技能或協力廠商技能來滿足使用者,通過 TTS 語音播報將結果給到使用者,如果設備有螢幕,則會給出適合設備螢幕大小形狀的展示結果。

經過這樣的工作流程,DuerOS 的對話系統可以通過音箱、電視、車機等設備,應用在多種場景中。之所以能夠有好的聽清、聽懂效果,百度認為主要歸功於三個方面:資料多、技術深、內容廣。

所謂的資料指的是百度擁有龐大的知識圖譜、需求圖譜、網頁圖譜、地理資訊圖譜及使用者畫像,技術則指的是十餘年裡百度所積累的自然語言處理、對話控制、對話管理、自然語言生成、搜索等技術,而內容指的是百度擁有的超過10000個資訊垂類內容。

智慧設備開放平臺

官方給出的智慧設備開放平臺的目標是“上手”最容易的設備平臺。簡單而言,就是對於協力廠商來說, 直接把百度給出的方案拿過來套上用,就可以了。但針對需求,百度還是給出了幾個版本的開發套件:

個人版-針對開發者

有趣的是,在個人版裡,百度提供了一個趣味組裝圖紙,讓開發者動手組裝。個人版既保留了一些自主行性,也節省了大量的時間,確實非常容易“上手”。

標準版-針對產品廠商

針對產品廠商需要穩定、可靠、大規模生產的需求,百度給出了“標準”答案。標準版開發套件完全按照 產品級要求研發,包括 4Mic 拾音板、MTK8516 主機板,Wi-Fi/BT+喇叭,終端軟體為 Linux+DuerOS SDK+終端應用,它的目標是開箱即用。

此外,百度還聯合設計團隊推出了標準版產品的參考設計,同時由來自手機團隊資深結構工程師專門做了結構化的設計,由資深的電聲工程師調整了電路效果,甚至和音箱代工廠制定了完整的工藝,貼上商標就可以對外銷售。

輕量版-針對特殊廠商

針對有些特殊要求的廠商,比如產品需要電池系統、需要低功耗、需要放到已有產品中,同時不希望增加成本等情況,百度則提供了輕量版開發套件。

發佈會中提到了 ARM 和 DevKit 合作的兩款專門支持 DevKit 和 ARMmbed 的解決方案,Cortex 為核心的解決方案,非常省電的,作為即時操作系統,配置也相當靈活,既有單板方案也有雙板。套件裡是高度整合的 SoC 系統,全部裝在一個單晶片上,本身就保證了低成本,小體積,甚至只有硬幣的大小。

協力廠商方案

除了上述三個百度提供的版本方案外,還和業界一些協力廠商廠商做了合作,讓 DuerOS 融合協力廠商解決方案,這其中包括了聲智科技、先聲互聯、Intel、Rockchip、Qualcomm 等,還有更多正在進行中,沒有完工的廠商。

與這些設備解決方案配套的,是一款基於手機的 App——小度之家。據雷鋒網瞭解,在以語音交互為主的設備上,有兩個很常見的問題,一是配網不方便,二是設置不方便。通過小度之家 App,這兩個問題都可以得到徹底解決。在這個 App 上,一方面可以看到操作記錄,另一方面也支援付費功能。更重要的是,將來會有更多的協力廠商技能會出現在這個 App 上。

技能開放平臺

技能開放平臺分為三個部分,一個部分是百度提供的原聲技能,第二個部分是為協力廠商開放的技能工具,第三個部分是由開發者開發的協力廠商技能。

這些技能綜合起來,就是為了讓語音交互設備更好用,具有更多功能,讓用戶聽懂並得到滿足。雷鋒網瞭解到,百度的原聲技能覆蓋了從娛樂到生活,從資訊到工具十個大類,超過100個子類,且還在不斷增加。

通過開發工具,開發者可以開發協力廠商技能,百度還提供了標準的技能範本,可以説明開發者無門檻的創建技能。從開始創建到最終發佈,都有百度的技術支援。而上傳到技能商店的技能,終端使用者都可以根據自己的需要來選擇或者購買喜歡的技能,平臺中的“監控”功能,還可以為開發者優化技能提供決策資料。

小結

如果用決定論來理解百度今日對“作業系統”的執念,或許想想它曾錯失的移動互聯網時代就能夠理解。希望這是深刻反思後看清楚的方向,而不是某種矯枉過正的偏執。但無論如何,正如一位前百度員工說的那樣,“我只相信技術”。此刻的百度,或許最接近李彥宏心目中的百度,或許也是國內最相信技術的大公司。