您的位置:首頁>科技>正文

聽清、聽懂、滿足:DuerOS 整體架構最全解剖

7月5日, 百度 AI 開發者大會。 還不到下午一點半, 對話式人工智慧分論壇已經人滿為患, A 廳的保安堵著門, 出來一個才會放一個進去。 在這場下午兩點開始, 總共耗時三個半小時的分論壇中, 先後換了三位主講人, 才把景鯤所講的“聽清、聽懂、滿足”的 DuerOS 整體架構講完。

差不多同一時刻, 阿裡也在北京召開發佈會, 發佈了旗下第一款智慧音箱。 此前已經有不少好事媒體紛紛猜測, 群眾舉瓜圍觀, 畢竟巨頭分庭抗禮的戲碼沒有人會厭倦。

雷鋒網整理了百度分論壇的全部內容, 並精選出與 DuerOS 直接相關的資訊, 試圖清楚的回答“DuerOS是什麼” 的問題,

或許這也是全閘道於 DuerOS 最全面的解剖:

DuerOS 整體架構

DuerOS 的整體架構包括三層:中間層為核心層, 即對話系統;最上層為應用層, 即智慧設備開放平臺;最底層為能力層, 即技能開放平臺。

所謂的核心層, 包括了從語音辨識到語音播報再到螢幕顯示的一個完整交互流程,

以及背後支撐交互的自然語言理解、對話狀態控制、自然語言生成、搜索等等核心技術, 這些技術支撐著上下兩層的實現。

所謂的應用層, 則是為協力廠商廠商提供包括核心接入元件、晶片模組、麥克風陣列等的開發套件, 以及包括工業設計、結構設計、音腔設計在內的參考設計方案。

所謂的能力層, 則是面向開發者, 提供了包括了原生技能和協力廠商技能在內的技能開放平臺, 開發者可以通過技能工具, 來創建並發佈基於 DuerOS 的技能。

三層之間的結合處, 分別是對話服務和技能框架兩個介面, 也是整個 DuerOS 的核心介面, 前者為終端設備提供了各項支援請求, 體現 DuerOS 的終端能力, 後者為協力廠商開發者豐富的創建方式,

體現 DuerOS 的技能開發能力。

為了更清楚的理解, 針對對話服務與技術框架, 百度直接拿 DuerOS 和 Andriod 系統做了對比:

如同電腦、平板在 Android 系統上具備觸摸的交互功能一樣, 音箱、電視、車載設備搭載了 DuerOS 後, 就能具備智慧語音對話的交互功能。

如同 Android 設備驅動程式介面, 定義能夠運行的基本硬體和對話模式一樣, DuerOS 的對話系統則定義著運行 DuerOS 需要具備的終端能力, 以及使用者通過設備和 DuerOS 溝通時的對話模式。

如同開發者基於 Android 應用框架能夠開發 App 一樣, 協力廠商開發者也可以基於 DuerOS 的技能框架開發技能, 在搭載 DuerOS 的智慧設備上運行。

舉例來說:

搭載 DuerOS 的電視, 具備了螢幕顯示的能力, 當一個設備具備了螢幕顯示能力的時, DuerOS 就可以回應這種服務的請求, 識別之後通過螢幕告訴使用者正確的答案。 搭載 DuerOS 的手機, 使用者就可以通過語音操作打電話給家人或者向餐館訂餐。 搭載 DuerOS 的汽車, 具備車輛控制功能, 你可以跟汽車說天太熱了, 把天窗打開, 把空調調到19度。 這是 DuerOS 支援的協定具備多種多樣的終端能力。

針對技術框架, DuerOS 提供標準化的介面, 協力廠商開發者甚至可以一行代碼都不編寫, 就能創造標準化的技能, 只要提供內容即可。 針對需要個性化創造的開發者, DuerOS 提供了豐富的技能接入, 開發者不需要懂自然語言處理和深度學習, 就能創造非常自如的語音交互技能。

除了智慧創建工具之外,DuerOS 還提供全套平臺工具,覆蓋從創建、配置到百度雲部署、測試、發佈的整個生命週期。通過 DuerOS 的技能框架,百度把 DuerOS 的原生技能開發能力、自然語言處理能力、對話管理能力等全部開放給了協力廠商開發者。

核心層:對話系統

當使用者開始和 DuerOS 說話時,它的工作流程是這樣的:

使用者的語音先傳到 ASR 語音辨識模組,通過該模組,設備聽清使用者的語言,將它轉為文字;

轉成的文字經過相應模組的分析、識別和理解,並放在整個對話上下文當中做充分識別和理解,明確語義。

當 DuerOS 聽懂之後,則會調用合適的原生技能或協力廠商技能來滿足使用者,通過 TTS 語音播報將結果給到使用者,如果設備有螢幕,則會給出適合設備螢幕大小形狀的展示結果。

經過這樣的工作流程,DuerOS 的對話系統可以通過音箱、電視、車機等設備,應用在多種場景中。之所以能夠有好的聽清、聽懂效果,百度認為主要歸功於三個方面:資料多、技術深、內容廣。

所謂的資料指的是百度擁有龐大的知識圖譜、需求圖譜、網頁圖譜、地理資訊圖譜及使用者畫像,技術則指的是十餘年裡百度所積累的自然語言處理、對話控制、對話管理、自然語言生成、搜索等技術,而內容指的是百度擁有的超過10000個資訊垂類內容。

智慧設備開放平臺

官方給出的智慧設備開放平臺的目標是“上手”最容易的設備平臺。簡單而言,就是對於協力廠商來說, 直接把百度給出的方案拿過來套上用,就可以了。但針對需求,百度還是給出了幾個版本的開發套件:

個人版-針對開發者

有趣的是,在個人版裡,百度提供了一個趣味組裝圖紙,讓開發者動手組裝。個人版既保留了一些自主行性,也節省了大量的時間,確實非常容易“上手”。

標準版-針對產品廠商

針對產品廠商需要穩定、可靠、大規模生產的需求,百度給出了“標準”答案。標準版開發套件完全按照 產品級要求研發,包括 4Mic 拾音板、MTK8516 主機板,Wi-Fi/BT+喇叭,終端軟體為 Linux+DuerOS SDK+終端應用,它的目標是開箱即用。

此外,百度還聯合設計團隊推出了標準版產品的參考設計,同時由來自手機團隊資深結構工程師專門做了結構化的設計,由資深的電聲工程師調整了電路效果,甚至和音箱代工廠制定了完整的工藝,貼上商標就可以對外銷售。

輕量版-針對特殊廠商

針對有些特殊要求的廠商,比如產品需要電池系統、需要低功耗、需要放到已有產品中,同時不希望增加成本等情況,百度則提供了輕量版開發套件。

發佈會中提到了 ARM 和 DevKit 合作的兩款專門支持 DevKit 和 ARMmbed 的解決方案,Cortex 為核心的解決方案,非常省電的,作為即時操作系統,配置也相當靈活,既有單板方案也有雙板。套件裡是高度整合的 SoC 系統,全部裝在一個單晶片上,本身就保證了低成本,小體積,甚至只有硬幣的大小。

協力廠商方案

除了上述三個百度提供的版本方案外,還和業界一些協力廠商廠商做了合作,讓 DuerOS 融合協力廠商解決方案,這其中包括了聲智科技、先聲互聯、Intel、Rockchip、Qualcomm 等,還有更多正在進行中,沒有完工的廠商。

與這些設備解決方案配套的,是一款基於手機的 App——小度之家。據雷鋒網瞭解,在以語音交互為主的設備上,有兩個很常見的問題,一是配網不方便,二是設置不方便。通過小度之家 App,這兩個問題都可以得到徹底解決。在這個 App 上,一方面可以看到操作記錄,另一方面也支援付費功能。更重要的是,將來會有更多的協力廠商技能會出現在這個 App 上。

技能開放平臺

技能開放平臺分為三個部分,一個部分是百度提供的原聲技能,第二個部分是為協力廠商開放的技能工具,第三個部分是由開發者開發的協力廠商技能。

這些技能綜合起來,就是為了讓語音交互設備更好用,具有更多功能,讓用戶聽懂並得到滿足。雷鋒網瞭解到,百度的原聲技能覆蓋了從娛樂到生活,從資訊到工具十個大類,超過100個子類,且還在不斷增加。

通過開發工具,開發者可以開發協力廠商技能,百度還提供了標準的技能範本,可以説明開發者無門檻的創建技能。從開始創建到最終發佈,都有百度的技術支援。而上傳到技能商店的技能,終端使用者都可以根據自己的需要來選擇或者購買喜歡的技能,平臺中的“監控”功能,還可以為開發者優化技能提供決策資料。

小結

如果用決定論來理解百度今日對“作業系統”的執念,或許想想它曾錯失的移動互聯網時代就能夠理解。希望這是深刻反思後看清楚的方向,而不是某種矯枉過正的偏執。但無論如何,正如一位前百度員工說的那樣,“我只相信技術”。此刻的百度,或許最接近李彥宏心目中的百度,或許也是國內最相信技術的大公司。

就能創造非常自如的語音交互技能。

除了智慧創建工具之外,DuerOS 還提供全套平臺工具,覆蓋從創建、配置到百度雲部署、測試、發佈的整個生命週期。通過 DuerOS 的技能框架,百度把 DuerOS 的原生技能開發能力、自然語言處理能力、對話管理能力等全部開放給了協力廠商開發者。

核心層:對話系統

當使用者開始和 DuerOS 說話時,它的工作流程是這樣的:

使用者的語音先傳到 ASR 語音辨識模組,通過該模組,設備聽清使用者的語言,將它轉為文字;

轉成的文字經過相應模組的分析、識別和理解,並放在整個對話上下文當中做充分識別和理解,明確語義。

當 DuerOS 聽懂之後,則會調用合適的原生技能或協力廠商技能來滿足使用者,通過 TTS 語音播報將結果給到使用者,如果設備有螢幕,則會給出適合設備螢幕大小形狀的展示結果。

經過這樣的工作流程,DuerOS 的對話系統可以通過音箱、電視、車機等設備,應用在多種場景中。之所以能夠有好的聽清、聽懂效果,百度認為主要歸功於三個方面:資料多、技術深、內容廣。

所謂的資料指的是百度擁有龐大的知識圖譜、需求圖譜、網頁圖譜、地理資訊圖譜及使用者畫像,技術則指的是十餘年裡百度所積累的自然語言處理、對話控制、對話管理、自然語言生成、搜索等技術,而內容指的是百度擁有的超過10000個資訊垂類內容。

智慧設備開放平臺

官方給出的智慧設備開放平臺的目標是“上手”最容易的設備平臺。簡單而言,就是對於協力廠商來說, 直接把百度給出的方案拿過來套上用,就可以了。但針對需求,百度還是給出了幾個版本的開發套件:

個人版-針對開發者

有趣的是,在個人版裡,百度提供了一個趣味組裝圖紙,讓開發者動手組裝。個人版既保留了一些自主行性,也節省了大量的時間,確實非常容易“上手”。

標準版-針對產品廠商

針對產品廠商需要穩定、可靠、大規模生產的需求,百度給出了“標準”答案。標準版開發套件完全按照 產品級要求研發,包括 4Mic 拾音板、MTK8516 主機板,Wi-Fi/BT+喇叭,終端軟體為 Linux+DuerOS SDK+終端應用,它的目標是開箱即用。

此外,百度還聯合設計團隊推出了標準版產品的參考設計,同時由來自手機團隊資深結構工程師專門做了結構化的設計,由資深的電聲工程師調整了電路效果,甚至和音箱代工廠制定了完整的工藝,貼上商標就可以對外銷售。

輕量版-針對特殊廠商

針對有些特殊要求的廠商,比如產品需要電池系統、需要低功耗、需要放到已有產品中,同時不希望增加成本等情況,百度則提供了輕量版開發套件。

發佈會中提到了 ARM 和 DevKit 合作的兩款專門支持 DevKit 和 ARMmbed 的解決方案,Cortex 為核心的解決方案,非常省電的,作為即時操作系統,配置也相當靈活,既有單板方案也有雙板。套件裡是高度整合的 SoC 系統,全部裝在一個單晶片上,本身就保證了低成本,小體積,甚至只有硬幣的大小。

協力廠商方案

除了上述三個百度提供的版本方案外,還和業界一些協力廠商廠商做了合作,讓 DuerOS 融合協力廠商解決方案,這其中包括了聲智科技、先聲互聯、Intel、Rockchip、Qualcomm 等,還有更多正在進行中,沒有完工的廠商。

與這些設備解決方案配套的,是一款基於手機的 App——小度之家。據雷鋒網瞭解,在以語音交互為主的設備上,有兩個很常見的問題,一是配網不方便,二是設置不方便。通過小度之家 App,這兩個問題都可以得到徹底解決。在這個 App 上,一方面可以看到操作記錄,另一方面也支援付費功能。更重要的是,將來會有更多的協力廠商技能會出現在這個 App 上。

技能開放平臺

技能開放平臺分為三個部分,一個部分是百度提供的原聲技能,第二個部分是為協力廠商開放的技能工具,第三個部分是由開發者開發的協力廠商技能。

這些技能綜合起來,就是為了讓語音交互設備更好用,具有更多功能,讓用戶聽懂並得到滿足。雷鋒網瞭解到,百度的原聲技能覆蓋了從娛樂到生活,從資訊到工具十個大類,超過100個子類,且還在不斷增加。

通過開發工具,開發者可以開發協力廠商技能,百度還提供了標準的技能範本,可以説明開發者無門檻的創建技能。從開始創建到最終發佈,都有百度的技術支援。而上傳到技能商店的技能,終端使用者都可以根據自己的需要來選擇或者購買喜歡的技能,平臺中的“監控”功能,還可以為開發者優化技能提供決策資料。

小結

如果用決定論來理解百度今日對“作業系統”的執念,或許想想它曾錯失的移動互聯網時代就能夠理解。希望這是深刻反思後看清楚的方向,而不是某種矯枉過正的偏執。但無論如何,正如一位前百度員工說的那樣,“我只相信技術”。此刻的百度,或許最接近李彥宏心目中的百度,或許也是國內最相信技術的大公司。

Next Article
喜欢就按个赞吧!!!
点击关闭提示