華文網

直播新紅海,狼人殺火爆背後的語音視頻技術 | 深度

雷鋒網按:本文作者冼牛,即構科技市場運營總監,香港大學MBA,十年研發經驗,音視頻雲服務技術專家,專注連麥互動直播技術應用研究。 本文系雷鋒網獨家文章。

狼人殺,剛剛崛起,

就陷入紅海競爭。

一切發展的太快,都還來不及思考,APP排行榜上就擠滿了同質化的狼人殺產品。

經過2016年直播元年的驅動,語音視頻雲服務已經相對成熟。因此,狼人殺語音視頻入門相對容易,集成協力廠商的技術方案用就可以了。

然而,狼人殺語音視頻要差異化卻十分困難,因為不管是自研還是採用協力廠商的技術方案, 都還存在一些關鍵的痛點:

噪音抑制

回聲消除

低延遲

多路連麥

語音視頻的技術難度在業內被公認是十分高的,如果能很好地解決這些技術問題,狼人殺就能建立堅固的技術壁壘。在語音連麥的基礎之上,再加上視頻連麥的能力,那麼狼人殺就能構築安全的護城河,為進一步的業務創新提供有力的技術支撐。

下面我們展開討論一下狼人殺如何構築技術壁壘。

噪音抑制(NS, Noise Suppression)

狼人殺最頭疼的問題就是背景雜音,沒有之一。

拿一個十二人一局的狼人殺遊戲為例,每一個使用者都會帶入一定程度的背景雜音。十二個人的背景雜音疊加在一起,簡直是沒辦法玩了。參加過視訊會議的朋友應該是有所體會,如果有一個參會者是在汽車上接入視訊會議的,那麼這個參會者就要把麥克風關掉,不然這會議就沒辦法開了。在狼人殺遊戲中,這個問題會更加嚴重,你不能讓某個使用者把麥克風關掉,

你也不能要求用戶在沒有噪音的環境下加入遊戲,用戶體驗永遠是擺在第一位的。

終端設備採集進去的聲音可以分為三種:

發言人的聲音

發言人周圍的聲音

白噪音

第一種聲音是有效的,第二和第三種聲音是無效的。第二種聲音是無法抑制的,因為系統無法區分這是否是使用者有意製造的聲音。第三種聲音是白噪音,在每一個頻段的功率都是均勻的,可以類比為包含了所有顏色的白光,

白噪音是可以通過演算法來抑制的。

衡量噪音抑制的效果好不好,關鍵的技術指標有兩個:

信噪比提高的幅度

語音音質的保真度

一般來說,信噪比不應該低於70dB,高保真音箱的信噪比應達到110dB以上。 噪音抑制的作用是要提高信噪比的同時保持語音音質不失真。考慮到狼人殺的應用場景要進行多人高頻率強互動,狼人殺的語音方案要結合了聲學心理學模型,

信噪比要能夠提高20dB以上,同時不損傷語音的音質,才能獲得比較好的用戶體驗。

回聲消除(AEC, Acoustic Echo Cancellation)

如果說噪音抑制是狼人殺的基礎痛點,那麼回聲消除就是狼人殺差異化的殺手鐧。為什麼那麼說?狼人殺首先是個遊戲平臺,然後才是社交平臺。作為遊戲平臺,要在輪流發言的殺人遊戲環節解決噪音抑制問題,遊戲平臺的用戶體驗才能做好;作為社交平臺,要在複盤討論的社交環節解決回聲消除問題,社交平臺的用戶體驗才能差異化。然而,回聲消除的技術難度十分高。因此,回聲消除是狼人殺從遊戲走向社交必須要打的硬仗。解決了,就是社交平臺;解決不掉,就只是一款遊戲。在資本市場上,遊戲和社交產品的估值可是天壤之別的。

回聲消除可以分為硬體層次的和軟體層次的。一般來說,在硬體層次,硬體會做一些基礎的回聲消除工作。目前的音訊終端硬體主要包括PC(Intel+Windows)、安卓手機、和蘋果手機。PC端沒有做回聲消除;安卓手機對回聲消除做得不好,而且效果參出不齊;蘋果手機的回聲消除做得相對效果比較好。在軟體層次,軟體要抹平這些硬體平臺的區別,確保在不同平臺上回聲消除的效果都要良好,都要保持一致。

這裡只會簡單介紹回聲消除的原理,有詳細學習需要的同學請自行百度之。從麥克風採集到的聲音包括用戶近端的有效聲音加上近端回聲(NE, Near Echo)。回聲消除的目的就是要把近端回音消除掉。如果沒有任何參考信號,要把近端回音消除掉是不可能完成的任務,軟體演算法無法區分哪些是有效聲音信號,哪些是近端回音信號。

軟體演算法採用遠端回聲(FE, Far Echo)作為參考信號來消除回聲。雖然近端回聲和遠端回聲不完全相同,但是高度相關,可以通過一個函數來表示:NE=f(FE)。這個函數f(x)就是回聲路徑,表達了遠端回聲在空氣中經過多次反射等環境影響以後如何變成近端回聲的。從技術的角度看,回聲消除就是要從麥克風採集到的聲音中,把FE經過回聲路徑後變成的NE消除掉,本質上是對回聲路徑函數進行求解。

圖1 回音消除的基本原理

回音消除的效果好不好,該如何衡量?有兩個指標可以衡量:1)回聲有沒有消除掉;2)在雙講條件下效果好不好。比較拓撲的說法是,回音消除要麼沒有消除完全,要麼消除過度。如果沒有消除完全,就會有回音漏掉;如果消除過度,就會帶來失真。

狼人殺的應用場景對回聲消除的要求十分的高。在複盤討論環節,十來個使用者同時開著麥克風和揚聲器七嘴八舌進行攤牌對講,十來路的回聲,十幾個人在搶話。在這種極端的語音環境中,即使線上下進行都有聽不清的時候,更何況線上上進行。因此,回聲消除是對狼人殺十分有挑戰的技術。

低延遲

關於語音視頻通訊如何做到低延遲,筆者已經在雷鋒網發表過的一篇技術專欄文章中做了詳盡的探討。請參照雷鋒網的文章,這裡就不再展開論述了:

“為了互動直播,如何讓直播技術實現低延遲?”

狼人殺語音視頻雲的系統架構和直播雲的系統架構比較接近,可以通過下圖來展現。

圖2 即構科技狼人殺音視頻多路連麥系統架構

要降低語音視頻通訊的延遲,要從三個方面入手:

選擇最優的傳輸路徑;

選擇最優質的網路資源;

在各個傳輸環節做到最優。

語音視頻處理和傳輸的鏈條比較長,從推流端開始到拉流端總共至少經過九個環節。

圖3 語音視頻處理和傳輸的環節

一個語音視頻通訊系統除了要有即時的系統架構,還要在每個環節上做到最優,每個環節能節省一點點時間,整體節省的時間就會相當可觀。

直播的語音視頻通訊包括了語音和視頻的傳輸和處理,而狼人殺的語音視頻通訊目前大部分以語音為基礎,視頻作為差異化點。視頻碼率一般會達到幾百兆,音訊的碼率一般會達到幾十兆,兩者大概是十倍的差別。

語音視頻通訊的延遲要多低才算是好?可以拿一線的直播產品作為標杆,比如說,花椒直播的延遲一般可以達到400毫秒。一般來說,語音視頻的延遲低於800毫秒,就可以做連麥互動了;如果能達到400毫秒,那是相當優秀的,可以進行連麥合唱了。

多路語音連麥

在狼人殺的殺人遊戲環節,使用者需要通過語音進行互動。筆者體驗過市面上有代表性的十來款狼人殺產品,發現有的產品允許使用者多個人在同一時間發言,有的產品只允許輪到的用戶發言。前者的應用場景使用了多路語音連麥,後者的應用場景使用了單向的語音通話。

多路語音連麥是指是雙工模式,多個使用者可以同時講話,可以聽到所有人講話。單向的語音通話指的是單工模式,雖然多個使用者可以輪流說話,但是每次只有一個用戶被允許說話,其它使用者處於聆聽的模式。多路語音連麥要求延遲極低,一般要達到500毫秒以下才能取得比較好的語音對講效果。單向語音通話的延遲一般比較大,一般都達到1秒到3秒,甚至更大。這種技術條件下,要進行互動對講的話,用戶體驗是比較差的。

不管目前狼人殺的產品形態如何,可以肯定的是多路語音連麥的使用者體驗是要比單向語音通話體驗要優越的。不管狼人殺的產品如何演進,可以肯定的是,整個狼人殺的技術都會向多路語音連麥進行對齊。畢竟,多路語音連麥不但能夠支援更多的玩法和業務創新,而且能夠讓狼人殺從遊戲升級為社交變為可能。目前,很多狼人殺產品還停留在單向語音通話的階段,這不是因為應用場景的需要,而是因為技術條件的限制。

多路語音連麥雖然在狼人殺行業還沒有普及,但是在直播行業已經成為標配。直播行業在技術上是比狼人殺行業先走了一步,不管是連麥互動的玩法創新,還是多路音視頻連麥,都要比狼人殺行業在技術上有更多的探索和驗證。然而,狼人殺的應用場景比直播的應用場景要有更多的互動性。比如說,在直播的應用場景中,一般三個主播連麥互動比較合適,四個就有點嫌多,手機的小螢幕放不下了;然而,在狼人殺的應用場景中,人數最少的六人局就已經是對平民的單邊屠殺了,十二人局才稍微比較平衡。

圖4 多路語音連麥將成為狼人殺標配

相信隨著狼人殺在2017年的蓬勃發展,用戶和廠商會共同探索出更多新鮮的玩法。連麥互動已經成為直播行業的標配,多路連麥的產品形態也在不斷的嘗試中。用戶的口味只會提高不會降低,多路語音連麥也將會成為狼人殺行業的標配。

從語音升級到視頻

在2017年的年中,多路語音連麥將會成為狼人殺行業的標配。筆者敢於做這樣推斷的理由有兩個:

可以多路語音視頻連麥的雲服務已經在2016年中被直播行業驗證過,無論是技術還是服務都是被直播行業認可的。

自行研發多路語音連麥技術,在短期甚至中期都不現實。而對狼人殺產品來說速度就是存活的關鍵。因此將會採用語音視頻雲服務的協力廠商方案迅速進行能力對齊。

多路語音連麥是不是狼人殺的最終產品形態? 還言之過早,至少,語音升級的下一站是視頻。筆者如此推斷的理由也有兩個:

狼人殺的殺人環節中,使用者需要對其它使用者進行表情觀察,這是進行分析判斷的剛需,也可以增加遊戲的趣味性。筆者曾試玩過一款前十名的狼人殺產品,輪到發言的使用者的視頻會全屏顯示,當看到他的全屏視頻顯示的時候,筆者的個人體會就是眼前一亮,遊戲就變得更加有社交意味。

圖5 即構科技的狼人殺12路語音視頻連麥互動

狼人殺的下一站是社交,社交最自然的溝通方式就是語音加視頻,全面還原線下面對面的場景。狼人殺社交的第一個突破口就是複盤討論環節。在複盤討論環節中,使用者不需要表演和假裝,語音視頻連麥互動聊天將會變成最簡單直接的需求。複盤討論環節的社交對狼人殺廠商來說只是起點,如何把用戶的社交互動做起來是他們的手段,如何把用戶的關係鏈沉澱下來才是他們的目的。目前在國外爆發的多人語音視頻線上Party產品也許對狼人殺會有更多的啟發。不管如何,狼人殺的目的是社交,社交的最終形態就是要儘量還原線下場景。畢竟,看得見聽得到的語音視頻連麥才是最自然的溝通方式。

圖6 現象級視頻群聊產品Houseparty對狼人殺的社交嘗試有啟發意義

狼人殺是一個成熟的遊戲,互聯網是個開放的市場,這意味著任何好的玩法一經推出都很快被競品複製,最終狼人殺會陷入同質化的競爭泥沼。這個時候,如果要差異化競爭,就必須要不斷對運營和產品升級,而運營和產品升級必須要底層技術的強勁支撐。於是,技術必然會從單向語音通話,到多路音訊連麥,然後再到多路語音視頻連麥。

2016年直播行業已經為狼人殺催熟了語音視頻技術和培育好了語音視頻使用者,2017年狼人殺行業會加速走完技術升級的歷程。能迅速走完技術升級歷程的狼人殺廠商將會進入下一輪競爭,比拼社交平臺的產品和運營能力,一如現在的直播行業;不能迅速走完技術升級歷程的狼人殺廠商就會逐漸退出或者轉型。

狼人殺語音視頻,入門容易差異化難。困難不僅在於關鍵的痛點,而且在於速度。慢半拍產品只會被丟入長尾的紅塵中,被下一波的浪潮淹沒。

要在複盤討論的社交環節解決回聲消除問題,社交平臺的用戶體驗才能差異化。然而,回聲消除的技術難度十分高。因此,回聲消除是狼人殺從遊戲走向社交必須要打的硬仗。解決了,就是社交平臺;解決不掉,就只是一款遊戲。在資本市場上,遊戲和社交產品的估值可是天壤之別的。

回聲消除可以分為硬體層次的和軟體層次的。一般來說,在硬體層次,硬體會做一些基礎的回聲消除工作。目前的音訊終端硬體主要包括PC(Intel+Windows)、安卓手機、和蘋果手機。PC端沒有做回聲消除;安卓手機對回聲消除做得不好,而且效果參出不齊;蘋果手機的回聲消除做得相對效果比較好。在軟體層次,軟體要抹平這些硬體平臺的區別,確保在不同平臺上回聲消除的效果都要良好,都要保持一致。

這裡只會簡單介紹回聲消除的原理,有詳細學習需要的同學請自行百度之。從麥克風採集到的聲音包括用戶近端的有效聲音加上近端回聲(NE, Near Echo)。回聲消除的目的就是要把近端回音消除掉。如果沒有任何參考信號,要把近端回音消除掉是不可能完成的任務,軟體演算法無法區分哪些是有效聲音信號,哪些是近端回音信號。

軟體演算法採用遠端回聲(FE, Far Echo)作為參考信號來消除回聲。雖然近端回聲和遠端回聲不完全相同,但是高度相關,可以通過一個函數來表示:NE=f(FE)。這個函數f(x)就是回聲路徑,表達了遠端回聲在空氣中經過多次反射等環境影響以後如何變成近端回聲的。從技術的角度看,回聲消除就是要從麥克風採集到的聲音中,把FE經過回聲路徑後變成的NE消除掉,本質上是對回聲路徑函數進行求解。

圖1 回音消除的基本原理

回音消除的效果好不好,該如何衡量?有兩個指標可以衡量:1)回聲有沒有消除掉;2)在雙講條件下效果好不好。比較拓撲的說法是,回音消除要麼沒有消除完全,要麼消除過度。如果沒有消除完全,就會有回音漏掉;如果消除過度,就會帶來失真。

狼人殺的應用場景對回聲消除的要求十分的高。在複盤討論環節,十來個使用者同時開著麥克風和揚聲器七嘴八舌進行攤牌對講,十來路的回聲,十幾個人在搶話。在這種極端的語音環境中,即使線上下進行都有聽不清的時候,更何況線上上進行。因此,回聲消除是對狼人殺十分有挑戰的技術。

低延遲

關於語音視頻通訊如何做到低延遲,筆者已經在雷鋒網發表過的一篇技術專欄文章中做了詳盡的探討。請參照雷鋒網的文章,這裡就不再展開論述了:

“為了互動直播,如何讓直播技術實現低延遲?”

狼人殺語音視頻雲的系統架構和直播雲的系統架構比較接近,可以通過下圖來展現。

圖2 即構科技狼人殺音視頻多路連麥系統架構

要降低語音視頻通訊的延遲,要從三個方面入手:

選擇最優的傳輸路徑;

選擇最優質的網路資源;

在各個傳輸環節做到最優。

語音視頻處理和傳輸的鏈條比較長,從推流端開始到拉流端總共至少經過九個環節。

圖3 語音視頻處理和傳輸的環節

一個語音視頻通訊系統除了要有即時的系統架構,還要在每個環節上做到最優,每個環節能節省一點點時間,整體節省的時間就會相當可觀。

直播的語音視頻通訊包括了語音和視頻的傳輸和處理,而狼人殺的語音視頻通訊目前大部分以語音為基礎,視頻作為差異化點。視頻碼率一般會達到幾百兆,音訊的碼率一般會達到幾十兆,兩者大概是十倍的差別。

語音視頻通訊的延遲要多低才算是好?可以拿一線的直播產品作為標杆,比如說,花椒直播的延遲一般可以達到400毫秒。一般來說,語音視頻的延遲低於800毫秒,就可以做連麥互動了;如果能達到400毫秒,那是相當優秀的,可以進行連麥合唱了。

多路語音連麥

在狼人殺的殺人遊戲環節,使用者需要通過語音進行互動。筆者體驗過市面上有代表性的十來款狼人殺產品,發現有的產品允許使用者多個人在同一時間發言,有的產品只允許輪到的用戶發言。前者的應用場景使用了多路語音連麥,後者的應用場景使用了單向的語音通話。

多路語音連麥是指是雙工模式,多個使用者可以同時講話,可以聽到所有人講話。單向的語音通話指的是單工模式,雖然多個使用者可以輪流說話,但是每次只有一個用戶被允許說話,其它使用者處於聆聽的模式。多路語音連麥要求延遲極低,一般要達到500毫秒以下才能取得比較好的語音對講效果。單向語音通話的延遲一般比較大,一般都達到1秒到3秒,甚至更大。這種技術條件下,要進行互動對講的話,用戶體驗是比較差的。

不管目前狼人殺的產品形態如何,可以肯定的是多路語音連麥的使用者體驗是要比單向語音通話體驗要優越的。不管狼人殺的產品如何演進,可以肯定的是,整個狼人殺的技術都會向多路語音連麥進行對齊。畢竟,多路語音連麥不但能夠支援更多的玩法和業務創新,而且能夠讓狼人殺從遊戲升級為社交變為可能。目前,很多狼人殺產品還停留在單向語音通話的階段,這不是因為應用場景的需要,而是因為技術條件的限制。

多路語音連麥雖然在狼人殺行業還沒有普及,但是在直播行業已經成為標配。直播行業在技術上是比狼人殺行業先走了一步,不管是連麥互動的玩法創新,還是多路音視頻連麥,都要比狼人殺行業在技術上有更多的探索和驗證。然而,狼人殺的應用場景比直播的應用場景要有更多的互動性。比如說,在直播的應用場景中,一般三個主播連麥互動比較合適,四個就有點嫌多,手機的小螢幕放不下了;然而,在狼人殺的應用場景中,人數最少的六人局就已經是對平民的單邊屠殺了,十二人局才稍微比較平衡。

圖4 多路語音連麥將成為狼人殺標配

相信隨著狼人殺在2017年的蓬勃發展,用戶和廠商會共同探索出更多新鮮的玩法。連麥互動已經成為直播行業的標配,多路連麥的產品形態也在不斷的嘗試中。用戶的口味只會提高不會降低,多路語音連麥也將會成為狼人殺行業的標配。

從語音升級到視頻

在2017年的年中,多路語音連麥將會成為狼人殺行業的標配。筆者敢於做這樣推斷的理由有兩個:

可以多路語音視頻連麥的雲服務已經在2016年中被直播行業驗證過,無論是技術還是服務都是被直播行業認可的。

自行研發多路語音連麥技術,在短期甚至中期都不現實。而對狼人殺產品來說速度就是存活的關鍵。因此將會採用語音視頻雲服務的協力廠商方案迅速進行能力對齊。

多路語音連麥是不是狼人殺的最終產品形態? 還言之過早,至少,語音升級的下一站是視頻。筆者如此推斷的理由也有兩個:

狼人殺的殺人環節中,使用者需要對其它使用者進行表情觀察,這是進行分析判斷的剛需,也可以增加遊戲的趣味性。筆者曾試玩過一款前十名的狼人殺產品,輪到發言的使用者的視頻會全屏顯示,當看到他的全屏視頻顯示的時候,筆者的個人體會就是眼前一亮,遊戲就變得更加有社交意味。

圖5 即構科技的狼人殺12路語音視頻連麥互動

狼人殺的下一站是社交,社交最自然的溝通方式就是語音加視頻,全面還原線下面對面的場景。狼人殺社交的第一個突破口就是複盤討論環節。在複盤討論環節中,使用者不需要表演和假裝,語音視頻連麥互動聊天將會變成最簡單直接的需求。複盤討論環節的社交對狼人殺廠商來說只是起點,如何把用戶的社交互動做起來是他們的手段,如何把用戶的關係鏈沉澱下來才是他們的目的。目前在國外爆發的多人語音視頻線上Party產品也許對狼人殺會有更多的啟發。不管如何,狼人殺的目的是社交,社交的最終形態就是要儘量還原線下場景。畢竟,看得見聽得到的語音視頻連麥才是最自然的溝通方式。

圖6 現象級視頻群聊產品Houseparty對狼人殺的社交嘗試有啟發意義

狼人殺是一個成熟的遊戲,互聯網是個開放的市場,這意味著任何好的玩法一經推出都很快被競品複製,最終狼人殺會陷入同質化的競爭泥沼。這個時候,如果要差異化競爭,就必須要不斷對運營和產品升級,而運營和產品升級必須要底層技術的強勁支撐。於是,技術必然會從單向語音通話,到多路音訊連麥,然後再到多路語音視頻連麥。

2016年直播行業已經為狼人殺催熟了語音視頻技術和培育好了語音視頻使用者,2017年狼人殺行業會加速走完技術升級的歷程。能迅速走完技術升級歷程的狼人殺廠商將會進入下一輪競爭,比拼社交平臺的產品和運營能力,一如現在的直播行業;不能迅速走完技術升級歷程的狼人殺廠商就會逐漸退出或者轉型。

狼人殺語音視頻,入門容易差異化難。困難不僅在於關鍵的痛點,而且在於速度。慢半拍產品只會被丟入長尾的紅塵中,被下一波的浪潮淹沒。