渡鴉音箱獨家測評：代表百度AI技術DuerOS, 用戶體驗真的好嗎？

機器之能，是機器之心旗下關注全球人工智慧產業應用場景及商業化的內容帳號。歡迎關注與互動：almosthuman2017

我們也請來了天貓精靈、小米音箱、Rokid（若琪）以及叮咚音箱，這些渡鴉音箱的「兄弟們」將與它一起接受我們的檢驗。

撰文 | 宇多田

在今年三個多小時的世界大會主論壇上，百度把一半時間都留給了渡鴉音箱。

這個造型極其吸睛的四色正方體，暫時代替了無人車，成為李彥宏唯一揣到兜裡帶到烏鎮互聯網大會的「百度技術代表作」。

與其他重量級 AI 硬體廠商相比，百度推出這款音箱的時間絕對不能算早。

在已經有了阿裡、小米、京東等一眾巨頭搖旗呐喊的智慧音箱市場，大概只有百度自己知道，這款姍姍來遲，且並不便宜的音箱，到底能不能讓消費者買帳。

渡鴉音箱 Raven H，市場價格 1699 元

如何來衡量它呢？

對於一款普通音箱來說，音質必然是重中之重；而智慧音箱，標準則要複雜太多。

不過，各家廠商最不願聽的，其實不是「音質差」，而是被叫做「智障」。

雖然在某種程度上，截止目前，這個稱呼安在任何一家音箱上都幾乎沒差（誰用誰知道）。但在一定範圍內，由於語音交互系統這個內核各不相同，各廠智慧的音箱表現的確差異較大。

換句話說，在材質、音質、語音交互體驗以及內容資源等多個評測維度中，後兩者更為關鍵且聯繫緊密。

而對於要自稱要 All in AI 的百度，雖然在很久之前就開始把 DuerOS（語音交互開放平臺）嵌入到大大小小其他品牌的硬體產品中，而此次自家硬體的誕生，

或許對於DuerOS繼續招攬硬體生意起到「樣板」作用。

沒錯，這是第一款可以讓大眾直接檢驗百度 AI 技術軟硬實力的消費級產品。

拿景鯤的話來說，百度就是要通過這個音箱來告訴大眾，什麼才是不裹挾于成本與市場競爭的用戶體驗，為什麼 DuerOS 才是真正的產業領導者·。

「無論從顏值、聲音，還是內容和交互，渡鴉都是音箱類產品的標杆。有眾多競品是非常好的，因為這樣市場會越來越大，但在音箱市場，我們想著重用戶體驗的突破，也應該有 iPhone 這樣的定位。」

「軟」要做 AI 時代的安卓，「硬」要做音箱界的 iPhone，百度的胃口不可謂不大。但這款音箱能否承「使命之重」，以下評測，算是渡鴉正式進入市場前的一個「小測驗」吧。

渡鴉 Raven H 由主機和 touch 兩部分組成。 touch 就是手裡的這塊點陣屏，可單獨拆卸作為遠端觸控板進行主機的操控，譬如你上廁所，就可拿著這個小屏控制臥室音箱

作為第一個拿到渡鴉音箱的垂直新媒體，我們首先並沒有被它顏色鮮豔，且「風格清奇」的外觀所迷惑（據說直男相當喜歡）。

但把它拿在手上反復摩挲，突然可以理解這番「想做音箱界 iPhone」的野心。這種被稱為 Kalix 的箱體材料，有一種區別于常用普通硬體塑膠或網布的特別觸感（摻雜了顆粒感的順滑）。

4 種顏色的搭配，是選擇了色彩學中的德國工業標準色 RAL 體系）

而這種特殊的觸感以及著色工藝，據稱是渡鴉團隊與比利時著名化學材料供應商 Solvey 的博士們協作幾個月後才最終拍板的方案。

還有這個酷似樂高玩具的奇特造型，則在很大程度上出自瑞典著名消費品設計公司 Teenage Engineering 的手筆。

渡鴉的產品經理一直向我們灌輸一種「美學與藝術優先」的產品理念，但我們知道，對比市面上其他音箱，這裡面肯定有一筆不菲的設計費與材料費。

另外，假如這是一款美到爆表的音箱，但是「智商」和「功能」卻低於市場平均水準，你願意買一個這樣的擺件回去，還是選擇那些「穿著秋褲」，但價格相對低廉的普通柱狀音箱？

因此，重點來了，「用戶體驗」才是我們最關心的。換言之，這次測試也是我們對 DuerOS 的一次考驗。

為了能夠全方位「折磨」出渡鴉音箱語音交互系統的各項水準，我們也請來了天貓精靈、小米音箱、Rokid（若琪）以及叮咚音箱，從「語音辨識」、「語義理解」、「問題回饋」（包括多輪對話，能提供的技能與服務數量）等多個維度對這四款音箱進行橫向評測：

從左到右分別是叮咚音箱、天貓精靈、渡鴉音箱、Rokid、小米音箱

遠近場語音喚醒

對聲音的捕捉，是智慧音箱開始執行你指令的第一步。如果這款音箱能夠有效過濾環境噪音，準確捕捉較遠、較小的聲音及指令，那麼它才能繼續「讀懂」你的命令，進而做出合理的回饋。

在這一環節，我們首先在保證喚醒音量一致的前提下，從距離遠近對 4 款音箱進行測試。

首先，在相對安靜的環境中（只有竊竊私語聲），我們分別在距離不到 1 米處，3 米處以及 5 米處，對四個音箱進行喚醒。

第二輪中，我們又將音箱播放的音樂調至 100 分貝，在距離音箱不到 1 米處和 3 米處進行喚醒，結果如下：

從這個結果來看，市面上大廠產品的遠場識別的水平線基本一致。

但有一個很明顯的問題，叮咚音箱與 Rokid 都是僅用閃爍燈（無聲音）來提示用戶「已被喚醒」，但在站著（明顯高於音箱時，我們看不清 Rokid 的閃爍燈）或者是背對音箱的角度，我們有時候難以知曉音箱是否已經被喚醒。

一、遠近場語音辨識：

同樣是基於不同的距離維度（小於 1 米、3 米、5 米），在相對安靜的環境以及提問音量一致的前提下，我們分別問了 5 個音箱兩個很基礎的問題：

（1）北京天氣怎麼樣？

（2）李彥宏是誰？

5 款音箱的表現如下：

這個結果同樣看不出各個音箱背後的語音交互系統在語音辨識方面的明顯差異。

二、中英文混合語音辨識

雖然各家音箱都表示可以進行「中英文混合識別」（提醒一下：他們單獨識別英文的水準幾乎為 0），但識別效果顯然還是有些許差距。

我們問了這樣幾個問題，只能說，不要太過於期望國內音箱給你播想聽的英文歌：

1、我想聽 Justin Bieber 的歌

2、我想聽 Alexander Jean 的歌

3、我想聽 What do you mean

4、什麼是 Tensorflow？

5、試了若干首不是小賈（Justin Bieber）和黴黴（Taylor Swift）唱的英文歌（結果……很不理想）

結果如下：

很明顯，作為大 IP 和點播率較高的海外歌手，Justin Bieber 與 Taylor Swift 的歌意料之中地好識別，幾乎 5 款音箱都準確識別出這兩位歌手的英文名字。

但其他歌手就非常不理想了，譬如 Alexander Jean，儘管蝦米音樂（阿裡）與百度音樂（百度）曲庫裡都有他們的歌，但音箱都識別不出這個樂隊。

而作為 Justin Bieber 的熱門歌曲，What do you mean 的識別準確率普遍相對較高。

但在5款音箱中，對於其他稍冷門國外歌手的作品，無論發音多麼簡單，所有音箱的識別率都較低。

而一些英文專有名詞，譬如 Tensorflow……還是不要難為國內的音箱了。這就像跟讓 Google Home 說中文一樣，絕對不能強求。

三、句子裡只有單個關鍵字的語義識別：

如果說語音辨識的準確率大同小異，那麼音箱交互體驗的差距或許會在語義識別方面逐漸顯現。

在順利捕捉到你的聲音，並將這些類比音訊信號進行數位化處理（語音辨識）後，關鍵的一步來了：對這些文本資訊進行分析，「讀懂」這些資訊，然後才能給出一個正確的回饋。

這裡的「基於單個關鍵字」，指的是句式中的主語一般只有一個，無形容詞（範圍限定詞）。音箱在識別並分析單個關鍵字後，便能給出準確答案。

譬如：什麼是 A，B 怎麼樣，來點 C。

我們問了 5 個問題，都是這種簡單的句式：

1、劉強東是誰？

2、設個鬧鐘

3、放首周傑倫的歌

4、來點相聲

5、想聽娛樂新聞

而結果如下：

所有問題都有正確的回饋。

其中，對於「劉強東是誰」，Rokid 的回答稍簡單，而其他音箱的答案似乎都搬出了百度或其他百科詞條。

而「設定鬧鐘」這個問題，天貓精靈、小米音箱、渡鴉可以進行「多輪問答」，也就是說，能夠針對具體時間進行二次確認。

實際上，除了語音和語義識別的準確率，音箱能否針對問題本身進行回饋，還涉及到其背後掌握的內容資源的豐富程度（內容佈局，你懂得）。

而對於「來點相聲」這個問題，這些音箱的內容源幾乎都來自喜馬拉雅。

四、句中涉及多個關鍵字的語義識別

對於關鍵字較多，語句相對複雜的問題，各個音箱「理解能力」開始有了明顯的差距。我們問了以下 5 個問題，回饋各不相同：

1、劉強東的老婆/妻子是誰？（也同樣問了「劉強東的女朋友是誰」）

2、愛因斯坦什麼時候提出的相對論？（相對論是什麼時候提出的）

3、我想聽勵志的歌曲（我想聽勵志的中文歌）

4、想聽國內的科技新聞

5、我只想聽周傑倫、孫燕姿和陳奕迅這三個人的歌。

通過增加了問題的複雜性，我們得到了一些非常有意思的回饋。

無論是「老婆」還是「妻子」，渡鴉音箱、小米音箱都可以給出正確的答案，而京東旗下的叮咚音箱，則一會兒回答是「章澤天」，一會兒表示「我不關心這類八卦」……

而提到「女朋友」，只有叮咚音箱給了正確回答。

值得注意的是，雖然「女朋友」是一個錯誤的事實，但是對於我們人類來說，出於本能，都會回答出跟「老婆」一樣的答案。

而「相對論」這個問題，渡鴉音箱表現得更為優秀。

除了有技術方面的原因外，百度產品經理還認為這跟公司的搜索與百科基因有很大關係。他表示，「只要涉及到知識問答一類的問題，百度的強大就會顯露出來」。此外，小米的表現也相對不錯。

而給音樂限定範圍的問題，大多表現都不太好，只有渡鴉和天貓精靈在音樂的限定範圍內給出了正確的答案。

不過，涉及到有範圍限定的新聞，則「全軍覆沒」。

值得注意的是，對於最後一個問題，渡鴉的表現的確有些讓人意外，因為這種多個關鍵字的識別與理解難度很大。我們連續聽到渡鴉播放的歌曲，的確依次是「周傑倫」「孫燕姿」以及「陳奕迅」的歌。

至於為何能做到這個問題，百度給機器之能的回復顯得簡單粗暴：「這就是百度在自然語言處理技術上的一個創新點，是一個創新的產品功能。」

五、多輪問答

知乎專欄一位叫「我偏笑」的 AI 產品經理發表了這樣一個觀點：

自然語言解析技術已經逐漸不再成為各家廣義智慧助理產品的核心競爭力，而識別用戶意圖之後所提供的服務開始成為對話機器人差異化的核心。

這裡的「後續服務」，就包括「多輪對話體驗」。

他認為，在識別用戶意圖後，為了幫助你在多種可行方案中做出選擇，語音交互系統應該通過多次交互最終執行你的明確指令。

在我們對 5 款音箱的體驗中，除了「設定鬧鐘」，「問詢股價」，以及天貓精靈的「購物」與「充話費」等簡單的多輪對話設定外，很少有可以進行多輪對話的問題（這裡指，不需要每下一個指令就叫「喚醒詞」的連續作答）。

但渡鴉音箱在音樂單領域的「多輪問答」表現，體驗還不錯。

舉個例子，在說「我想聽運動的歌」，音箱開始播放音樂之後；你可以再次喚醒它（說句「小度小度」），並接著提出要求——「播放中文的」，這時音箱就默認為「你要聽運動的中文歌曲」，繼而執行命令。

以下問題，經過我們的測試，在進行二次喚醒後，都可以針對上個問題進行第二次「縮小範圍的設定」，而其他音箱暫時做不到這些。

不知作為用戶的你，是否認為這是一種必要的對話流程。

當然，如果是混領域的多輪問答，譬如“今天北京天氣怎麼樣？”“幫我查一下從北京到上海的機票”，這些對話由於涉及到技術、內容資源等多個維度，所以暫時市面上幾乎所有音箱都達不到這個效果。

六、回饋處理-音箱功能的豐富性

我們在剛才已經提到了，每個音箱針對問題的回答，除了跟系統能否有效識別和分析你的指令有關，還有一個很重要的因素——音箱的內容資源與語料庫能否支持你想要的這個功能。

換言之，就是音箱背後的生態實力是否足夠強大。

我們從用戶比較常用的三個維度列出了一個簡略的功能表，而各家可以實現的功能，在很大程度上取決於自家廠商的生態基因。

但需要注意的是，這必然屬於智慧人機交互產品的核心競爭力——「後續服務」（上面已經提到）中的一個重要維度。

很明顯，從功能的豐富性與背景基因來看，創業公司會有些許劣勢。

而對於大廠來說，各家有各家的優勢，譬如阿裡的天貓精靈與京東的叮咚更擅長 O2O 功能，而可以接入小米（其本身就有一個龐大的硬體王國）和渡鴉的智慧硬體數量（DuorOS 起步較早）則看起來更加可觀。

綜上所述，根據我們對音箱「語音交互體驗」這個維度的評測顯示，剛剛上市的渡鴉音箱的實力還是不容小覷的，甚至在「多輪對話」方面明顯高人一籌。

也就是說，渡鴉音箱中 DuorOS 提供的交互體驗，在某種程度上認證了百度的技術實力。

但是我們需要清楚的是，一個音箱是否能贏得市場，除了交互體驗，音質、價格、交貨能力（產能）以及可以連接的硬體數量也將是考驗產品的重要維度。

對於渡鴉來說，在交互體驗過關後，面對市場，仍然還有很長一段路要走。