您的位置:首頁>科技>正文

專訪騰訊音視頻實驗室劉曉宇:服務8億QQ使用者的音視頻通訊技術如何用到直播中

1999年, 當時還叫OICQ的聊天軟體發佈了一個新版本, 語音通話功能被正式加入, 隨後, 視頻通話也被加入。 18年後的今天, QQ的月活躍用戶已經超過8億, 一個更驚人的數字是, 最多的時候, QQ使用者每天的音視頻通話時長達12億分鐘。

在QQ發展過程中, 其背後的音視頻通信技術也經歷了對外採購, 到成立QQ音視頻技術中心, 自研引擎, 再發展壯大為騰訊音視頻實驗室, 開放自研的SPEAR音視頻引擎的過程。 現在, 隨著全民直播時代的到來, 騰訊又研發並開放了一體化的直播解決方案, 並將騰訊直播SDK應用於鬥魚、虎牙、快手等頂級的直播平臺。

這背後, 技術、經驗上的不斷進步和積累, 也有騰訊對中國複雜的網路狀況的智慧處理。

日前, 騰訊音視頻實驗室負責人劉曉宇接受了雷鋒網的採訪, 聊了聊這些問題, 並向我們介紹了精細化運營及5G技術來臨之際, 直播會有哪些更新鮮的玩法。

(騰訊音視頻實驗室負責人劉曉宇)

騰訊音視頻實驗室:從無到有, 再到支持每天12億分鐘通話

遙遠的斯坦福校園內, 一位機器學習教授上課的場景被高清攝像機捕捉的畫面, 通過編碼器壓縮, 以分段發送的方式, 通過互聯網傳輸到你的電腦上, 再由播放機進行即時解壓縮處理, 你就能學習到最前沿的課程。

流媒體技術給互聯網帶來了無限的活力, 而當場景變成音視頻通訊時, 背後的技術就不止複雜了一倍。 除了雙向的回饋, 即時通訊對延遲的要求也變得非常高;另外, 回聲處理也成了新的問題, “我聽到你的聲音出來了, 我也要說話, 這個過程中麥克風是一直開著的, 假如不處理回聲, 你的聲音會被再次採集進去,

播到你那邊。 ”

在騰訊大廈的騰訊音視頻實驗室內, 劉曉宇向雷鋒網做了一個小科普。 2005年, 他加入騰訊, 負責QQ應用層的架構設計, “除了底層的公共元件, 好友面板、消息視窗, 包括空間、音樂、郵箱等外掛程式化功能, 可以理解為你能看到的QQ介面展示出的東西, 都是我們開發的。 ”

2011年, 騰訊正式成立了音視頻中心, 劉曉宇被任命為負責人。 儘管QQ在1999年就有了音視頻通話功能, 但很長一段時間, 騰訊都依靠騰訊研究院和協力廠商技術提供商, 沒有獨立的團隊負責音視頻通訊。

成立音視頻中心, 是因為騰訊覺得音視頻會是未來的一個爆發點, 還有一個重要原因, 當時採購自GIPS(後被Google收購)的技術方案, 是一個“黑盒子”, 出現問題時自己無法找出原因,

GIPS又不夠重視, 這堅定了騰訊技術自研的決心。

劉曉宇介紹, 在音視頻通訊中, 網路問題一直是一個技術難點。 檢測網路頻寬, 以平衡視頻品質和傳送速率的頻寬探測, 處理丟包、抖動, 都需要很深的技術積累。 另外, 隨著移動互聯網的發展, 設備碎片化越來越嚴重, 適配不同的設備又成了巨大的問題, “我們經常要適配系統的問題, 有時候會出現很戲劇化的事情。 ”有一個版本的QQ, 騰訊特意為適配不好的小米手機做了優化, 但版本還沒發佈, 小米就發現了問題, 自己率先做了優化。 互相適應, 結果又有問題了。

(為了測試QQ在不同網路中的音視頻通話品質, 騰訊音視頻實驗室拉了10多條和使用者真實情況一樣的寬頻, 涵蓋各個運營商、教育網等)

音視頻中心的發展壯大, 推動了QQ音視頻通話功能的不斷革新。 現在, QQ使用者每天的音視頻通話時長達12億分鐘。 2015年11月, 騰訊正式開放自研的SPEAR音視頻引擎, 將包括流控策略控制雲端化、通道智慧化/多通道備份機制、分散式混音和雲混音、跨平臺通信協定設計、提供跨平臺用戶端引擎SDK、預連接設計、雙人/多人通話平滑切換、通話客觀品質評測體系等特性帶給更多的開發者。

2016年,騰訊音視頻實驗室正式成立,最初成立時只有7個人的音視頻中心,如今已有80多人。除了繼續保障QQ的音視頻通話,將它的能力開放出來,在企業級市場上有所作為,也成了音視頻實驗室的新任務。

從音視頻通話到直播:技術、需求都要隨人性而改變

2015年,隨著4G和智慧手機的普及,移動直播開始成為一個新的熱點。其實在技術上,直播並不是一個新興的東西,早在2008年前後,六間房就開始嘗試使用Flash的技術進行網頁直播。

從網頁直播到移動直播,用戶的需求沒變,但使用的網路環境、設備、直播環境都在發生變化。例如,移動直播要解決Wi-Fi、移動網路的切換問題;而在不同的空間裡,保證音質、視頻流暢以及光線平衡,又對技術提出了新的挑戰。劉曉宇向雷鋒網舉了個例子,最早做音視頻通訊時,騰訊向GIPS採購的音視頻通話方案經常會遇到投訴,其中的一個重要原因是中國複雜的網路環境,比如南北通問題、使用者糟糕的網路連接等。

(消音實驗室,關閉大門安靜時分貝數僅為17,可以保證每次測試環境的一致)

在應對移動直播時,類似的問題同樣存在,這就需要移動技術提供商針對不同的環境進行優化,其中弱網專項優化、搶頻寬的能力、手機性能優化、機型適配、後臺轉碼能力等,都會直接影響直播間穩定、清晰度,連麥的即時性和溝通的順暢。

另外,據劉曉宇介紹,因為用戶觀看直播的微妙習慣,技術策略上也要做相應的調整。例如,在以前的視頻通話中,使用者的主要需求是低延時,所以當網路不好時,系統會自動降低視頻清晰度。但是在直播中則完全相反,“寧可卡一點,延遲稍微大一點,也不要把解析度降下來”;在研究中,劉曉宇的團隊還發現,用戶在觀看直播時非常隨性,會習慣性地滑到下一個直播,這就需要系統提前緩存畫面,讓使用者快速切換直播。

現在,騰訊已經有了一整套的直播技術解決方案,只需要幾行代碼,就可以讓企業接入騰訊直播模組,擁有騰訊的直播技術支援。

這套音視頻直播AVL(Audio Video Live)方案,依託騰訊的SPEAR音視頻通信引擎,通過騰訊直播SDK可打造跨平臺一對多、多對多的超清酷炫直播場景。除了能夠提供基礎的高清、秒開、高音質、轉碼、鑒黃能力外,還具備連麥、即時錄製、音訊直播、美顏、浮水印、混音、IM等特色能力。同時兼具旁路直播、螢幕分享、人臉識別、濾鏡、掛件等“冷僻”能力,全部能力達到17項之多,是目前能力覆蓋最全的主流直播SDK。其流暢度、音質、低延遲、下行抗丟包4項指標位居行業第一,其他核心資料也接近行業最佳。

(測試真實通話時的品質,過程中的各項資料都會被即時記錄下來)

音視頻直播AVL 的一個重要應用是直播中的連麥,現在,鬥魚、虎牙和快手,都使用了這個服務。鬥魚直播產品規劃經理汪楚峰也接受了雷鋒網的採訪,據他介紹,成立於2014年的鬥魚,現在每天開播的直播間數量超過4萬,每天的活躍用戶超過2000萬。

2015年,鬥魚開始使用騰訊提供的直播連麥功能,除了低延遲,騰訊還提供了虛擬裝扮、主播變聲等特色功能,另外在音樂場景中,騰訊對麥克風收音和音質提高上也有深入的優化。

垂直場景、語音辨識、VR,新技術之下直播還有新玩法

今年初的春節期間QQ視頻通話裡做了一個視頻表情彩蛋的玩法,說出“麼麼噠”螢幕上會出現紅唇表情,說“新年快樂”、“恭喜發財”也會有對應的驚喜表情。

這只是語音辨識在視頻通話上的初步應用。直播平臺的競爭已經出現“大魚吃小魚”的態勢,在劉曉宇看來,技術將成為直播平臺差異化的一個突破點。

今年,NOW直播已經開始測試綠幕直播,當用戶在直播過程中,環境背景為指定綠色時,可替換任意手機相冊內的照片或視頻。這種應用在電影製作中的技術,可以讓直播有更創新的玩法,有分析人士認為,它可以應用於二次元主題直播。接下來騰訊也會將該能力集成到直播SDK中去,開放給更多直播平臺使用。

(Now直播的綠幕直播)

現在的直播,秀場和遊戲直播占了絕大多數,但同時,也開始出現越來越多的垂直場景,如金融、教育類直播,在這類場景中,除了主播和觀眾,還涉及到螢幕,現在,騰訊的直播技術已經能解決三方同步、滿足螢幕解碼和CPU控制的問題。

另外,VR直播曾經被高度看好,劉曉宇告訴雷鋒網,目前VR直播的技術障礙主要在於,要保證多人同時觀看的沉浸式體驗,直播源就要傳輸360度的全量資料,而這個資料量是非常龐大的;另外,在採集全景視頻時,畫面疊加部分的拼接、分割,鏡頭的矯正都還有很長一段路要走。

不過,科技行業永遠是進步最快的領域,根據工信部和三大運營商的規劃,2020年,中國5G將正式商用,劉曉宇說,“和4G相比,5G會是一種質變,我們會時刻關注這裡的技術發展。”

2016年,騰訊音視頻實驗室正式成立,最初成立時只有7個人的音視頻中心,如今已有80多人。除了繼續保障QQ的音視頻通話,將它的能力開放出來,在企業級市場上有所作為,也成了音視頻實驗室的新任務。

從音視頻通話到直播:技術、需求都要隨人性而改變

2015年,隨著4G和智慧手機的普及,移動直播開始成為一個新的熱點。其實在技術上,直播並不是一個新興的東西,早在2008年前後,六間房就開始嘗試使用Flash的技術進行網頁直播。

從網頁直播到移動直播,用戶的需求沒變,但使用的網路環境、設備、直播環境都在發生變化。例如,移動直播要解決Wi-Fi、移動網路的切換問題;而在不同的空間裡,保證音質、視頻流暢以及光線平衡,又對技術提出了新的挑戰。劉曉宇向雷鋒網舉了個例子,最早做音視頻通訊時,騰訊向GIPS採購的音視頻通話方案經常會遇到投訴,其中的一個重要原因是中國複雜的網路環境,比如南北通問題、使用者糟糕的網路連接等。

(消音實驗室,關閉大門安靜時分貝數僅為17,可以保證每次測試環境的一致)

在應對移動直播時,類似的問題同樣存在,這就需要移動技術提供商針對不同的環境進行優化,其中弱網專項優化、搶頻寬的能力、手機性能優化、機型適配、後臺轉碼能力等,都會直接影響直播間穩定、清晰度,連麥的即時性和溝通的順暢。

另外,據劉曉宇介紹,因為用戶觀看直播的微妙習慣,技術策略上也要做相應的調整。例如,在以前的視頻通話中,使用者的主要需求是低延時,所以當網路不好時,系統會自動降低視頻清晰度。但是在直播中則完全相反,“寧可卡一點,延遲稍微大一點,也不要把解析度降下來”;在研究中,劉曉宇的團隊還發現,用戶在觀看直播時非常隨性,會習慣性地滑到下一個直播,這就需要系統提前緩存畫面,讓使用者快速切換直播。

現在,騰訊已經有了一整套的直播技術解決方案,只需要幾行代碼,就可以讓企業接入騰訊直播模組,擁有騰訊的直播技術支援。

這套音視頻直播AVL(Audio Video Live)方案,依託騰訊的SPEAR音視頻通信引擎,通過騰訊直播SDK可打造跨平臺一對多、多對多的超清酷炫直播場景。除了能夠提供基礎的高清、秒開、高音質、轉碼、鑒黃能力外,還具備連麥、即時錄製、音訊直播、美顏、浮水印、混音、IM等特色能力。同時兼具旁路直播、螢幕分享、人臉識別、濾鏡、掛件等“冷僻”能力,全部能力達到17項之多,是目前能力覆蓋最全的主流直播SDK。其流暢度、音質、低延遲、下行抗丟包4項指標位居行業第一,其他核心資料也接近行業最佳。

(測試真實通話時的品質,過程中的各項資料都會被即時記錄下來)

音視頻直播AVL 的一個重要應用是直播中的連麥,現在,鬥魚、虎牙和快手,都使用了這個服務。鬥魚直播產品規劃經理汪楚峰也接受了雷鋒網的採訪,據他介紹,成立於2014年的鬥魚,現在每天開播的直播間數量超過4萬,每天的活躍用戶超過2000萬。

2015年,鬥魚開始使用騰訊提供的直播連麥功能,除了低延遲,騰訊還提供了虛擬裝扮、主播變聲等特色功能,另外在音樂場景中,騰訊對麥克風收音和音質提高上也有深入的優化。

垂直場景、語音辨識、VR,新技術之下直播還有新玩法

今年初的春節期間QQ視頻通話裡做了一個視頻表情彩蛋的玩法,說出“麼麼噠”螢幕上會出現紅唇表情,說“新年快樂”、“恭喜發財”也會有對應的驚喜表情。

這只是語音辨識在視頻通話上的初步應用。直播平臺的競爭已經出現“大魚吃小魚”的態勢,在劉曉宇看來,技術將成為直播平臺差異化的一個突破點。

今年,NOW直播已經開始測試綠幕直播,當用戶在直播過程中,環境背景為指定綠色時,可替換任意手機相冊內的照片或視頻。這種應用在電影製作中的技術,可以讓直播有更創新的玩法,有分析人士認為,它可以應用於二次元主題直播。接下來騰訊也會將該能力集成到直播SDK中去,開放給更多直播平臺使用。

(Now直播的綠幕直播)

現在的直播,秀場和遊戲直播占了絕大多數,但同時,也開始出現越來越多的垂直場景,如金融、教育類直播,在這類場景中,除了主播和觀眾,還涉及到螢幕,現在,騰訊的直播技術已經能解決三方同步、滿足螢幕解碼和CPU控制的問題。

另外,VR直播曾經被高度看好,劉曉宇告訴雷鋒網,目前VR直播的技術障礙主要在於,要保證多人同時觀看的沉浸式體驗,直播源就要傳輸360度的全量資料,而這個資料量是非常龐大的;另外,在採集全景視頻時,畫面疊加部分的拼接、分割,鏡頭的矯正都還有很長一段路要走。

不過,科技行業永遠是進步最快的領域,根據工信部和三大運營商的規劃,2020年,中國5G將正式商用,劉曉宇說,“和4G相比,5G會是一種質變,我們會時刻關注這裡的技術發展。”

Next Article
喜欢就按个赞吧!!!
点击关闭提示