1999年, 當時還叫OICQ的聊天軟體發佈了一個新版本, 語音通話功能被正式加入, 隨後, 視頻通話也被加入。 18年後的今天, QQ的月活躍用戶已經超過8億, 一個更驚人的數字是, 最多的時候, QQ使用者每天的音視頻通話時長達12億分鐘。
在QQ發展過程中, 其背後的音視頻通信技術也經歷了對外採購, 到成立QQ音視頻技術中心, 自研引擎, 再發展壯大為騰訊音視頻實驗室, 開放自研的SPEAR音視頻引擎的過程。 現在, 隨著全民直播時代的到來, 騰訊又研發並開放了一體化的直播解決方案, 並將騰訊直播SDK應用於鬥魚、虎牙、快手等頂級的直播平臺。
日前, 騰訊音視頻實驗室負責人劉曉宇接受了雷鋒網的採訪, 聊了聊這些問題, 並向我們介紹了精細化運營及5G技術來臨之際, 直播會有哪些更新鮮的玩法。
(騰訊音視頻實驗室負責人劉曉宇)
騰訊音視頻實驗室:從無到有, 再到支持每天12億分鐘通話
遙遠的斯坦福校園內, 一位機器學習教授上課的場景被高清攝像機捕捉的畫面, 通過編碼器壓縮, 以分段發送的方式, 通過互聯網傳輸到你的電腦上, 再由播放機進行即時解壓縮處理, 你就能學習到最前沿的課程。
流媒體技術給互聯網帶來了無限的活力, 而當場景變成音視頻通訊時, 背後的技術就不止複雜了一倍。 除了雙向的回饋, 即時通訊對延遲的要求也變得非常高;另外, 回聲處理也成了新的問題, “我聽到你的聲音出來了, 我也要說話, 這個過程中麥克風是一直開著的, 假如不處理回聲, 你的聲音會被再次採集進去,
在騰訊大廈的騰訊音視頻實驗室內, 劉曉宇向雷鋒網做了一個小科普。 2005年, 他加入騰訊, 負責QQ應用層的架構設計, “除了底層的公共元件, 好友面板、消息視窗, 包括空間、音樂、郵箱等外掛程式化功能, 可以理解為你能看到的QQ介面展示出的東西, 都是我們開發的。 ”
2011年, 騰訊正式成立了音視頻中心, 劉曉宇被任命為負責人。 儘管QQ在1999年就有了音視頻通話功能, 但很長一段時間, 騰訊都依靠騰訊研究院和協力廠商技術提供商, 沒有獨立的團隊負責音視頻通訊。
成立音視頻中心, 是因為騰訊覺得音視頻會是未來的一個爆發點, 還有一個重要原因, 當時採購自GIPS(後被Google收購)的技術方案, 是一個“黑盒子”, 出現問題時自己無法找出原因,
劉曉宇介紹, 在音視頻通訊中, 網路問題一直是一個技術難點。 檢測網路頻寬, 以平衡視頻品質和傳送速率的頻寬探測, 處理丟包、抖動, 都需要很深的技術積累。 另外, 隨著移動互聯網的發展, 設備碎片化越來越嚴重, 適配不同的設備又成了巨大的問題, “我們經常要適配系統的問題, 有時候會出現很戲劇化的事情。 ”有一個版本的QQ, 騰訊特意為適配不好的小米手機做了優化, 但版本還沒發佈, 小米就發現了問題, 自己率先做了優化。 互相適應, 結果又有問題了。
(為了測試QQ在不同網路中的音視頻通話品質, 騰訊音視頻實驗室拉了10多條和使用者真實情況一樣的寬頻, 涵蓋各個運營商、教育網等)
音視頻中心的發展壯大, 推動了QQ音視頻通話功能的不斷革新。 現在, QQ使用者每天的音視頻通話時長達12億分鐘。 2015年11月, 騰訊正式開放自研的SPEAR音視頻引擎, 將包括流控策略控制雲端化、通道智慧化/多通道備份機制、分散式混音和雲混音、跨平臺通信協定設計、提供跨平臺用戶端引擎SDK、預連接設計、雙人/多人通話平滑切換、通話客觀品質評測體系等特性帶給更多的開發者。
2016年,騰訊音視頻實驗室正式成立,最初成立時只有7個人的音視頻中心,如今已有80多人。除了繼續保障QQ的音視頻通話,將它的能力開放出來,在企業級市場上有所作為,也成了音視頻實驗室的新任務。
從音視頻通話到直播:技術、需求都要隨人性而改變
2015年,隨著4G和智慧手機的普及,移動直播開始成為一個新的熱點。其實在技術上,直播並不是一個新興的東西,早在2008年前後,六間房就開始嘗試使用Flash的技術進行網頁直播。
從網頁直播到移動直播,用戶的需求沒變,但使用的網路環境、設備、直播環境都在發生變化。例如,移動直播要解決Wi-Fi、移動網路的切換問題;而在不同的空間裡,保證音質、視頻流暢以及光線平衡,又對技術提出了新的挑戰。劉曉宇向雷鋒網舉了個例子,最早做音視頻通訊時,騰訊向GIPS採購的音視頻通話方案經常會遇到投訴,其中的一個重要原因是中國複雜的網路環境,比如南北通問題、使用者糟糕的網路連接等。
(消音實驗室,關閉大門安靜時分貝數僅為17,可以保證每次測試環境的一致)
在應對移動直播時,類似的問題同樣存在,這就需要移動技術提供商針對不同的環境進行優化,其中弱網專項優化、搶頻寬的能力、手機性能優化、機型適配、後臺轉碼能力等,都會直接影響直播間穩定、清晰度,連麥的即時性和溝通的順暢。
另外,據劉曉宇介紹,因為用戶觀看直播的微妙習慣,技術策略上也要做相應的調整。例如,在以前的視頻通話中,使用者的主要需求是低延時,所以當網路不好時,系統會自動降低視頻清晰度。但是在直播中則完全相反,“寧可卡一點,延遲稍微大一點,也不要把解析度降下來”;在研究中,劉曉宇的團隊還發現,用戶在觀看直播時非常隨性,會習慣性地滑到下一個直播,這就需要系統提前緩存畫面,讓使用者快速切換直播。
現在,騰訊已經有了一整套的直播技術解決方案,只需要幾行代碼,就可以讓企業接入騰訊直播模組,擁有騰訊的直播技術支援。
這套音視頻直播AVL(Audio Video Live)方案,依託騰訊的SPEAR音視頻通信引擎,通過騰訊直播SDK可打造跨平臺一對多、多對多的超清酷炫直播場景。除了能夠提供基礎的高清、秒開、高音質、轉碼、鑒黃能力外,還具備連麥、即時錄製、音訊直播、美顏、浮水印、混音、IM等特色能力。同時兼具旁路直播、螢幕分享、人臉識別、濾鏡、掛件等“冷僻”能力,全部能力達到17項之多,是目前能力覆蓋最全的主流直播SDK。其流暢度、音質、低延遲、下行抗丟包4項指標位居行業第一,其他核心資料也接近行業最佳。
(測試真實通話時的品質,過程中的各項資料都會被即時記錄下來)
音視頻直播AVL 的一個重要應用是直播中的連麥,現在,鬥魚、虎牙和快手,都使用了這個服務。鬥魚直播產品規劃經理汪楚峰也接受了雷鋒網的採訪,據他介紹,成立於2014年的鬥魚,現在每天開播的直播間數量超過4萬,每天的活躍用戶超過2000萬。
2015年,鬥魚開始使用騰訊提供的直播連麥功能,除了低延遲,騰訊還提供了虛擬裝扮、主播變聲等特色功能,另外在音樂場景中,騰訊對麥克風收音和音質提高上也有深入的優化。
垂直場景、語音辨識、VR,新技術之下直播還有新玩法
今年初的春節期間QQ視頻通話裡做了一個視頻表情彩蛋的玩法,說出“麼麼噠”螢幕上會出現紅唇表情,說“新年快樂”、“恭喜發財”也會有對應的驚喜表情。
這只是語音辨識在視頻通話上的初步應用。直播平臺的競爭已經出現“大魚吃小魚”的態勢,在劉曉宇看來,技術將成為直播平臺差異化的一個突破點。
今年,NOW直播已經開始測試綠幕直播,當用戶在直播過程中,環境背景為指定綠色時,可替換任意手機相冊內的照片或視頻。這種應用在電影製作中的技術,可以讓直播有更創新的玩法,有分析人士認為,它可以應用於二次元主題直播。接下來騰訊也會將該能力集成到直播SDK中去,開放給更多直播平臺使用。
(Now直播的綠幕直播)
現在的直播,秀場和遊戲直播占了絕大多數,但同時,也開始出現越來越多的垂直場景,如金融、教育類直播,在這類場景中,除了主播和觀眾,還涉及到螢幕,現在,騰訊的直播技術已經能解決三方同步、滿足螢幕解碼和CPU控制的問題。
另外,VR直播曾經被高度看好,劉曉宇告訴雷鋒網,目前VR直播的技術障礙主要在於,要保證多人同時觀看的沉浸式體驗,直播源就要傳輸360度的全量資料,而這個資料量是非常龐大的;另外,在採集全景視頻時,畫面疊加部分的拼接、分割,鏡頭的矯正都還有很長一段路要走。
不過,科技行業永遠是進步最快的領域,根據工信部和三大運營商的規劃,2020年,中國5G將正式商用,劉曉宇說,“和4G相比,5G會是一種質變,我們會時刻關注這裡的技術發展。”
2016年,騰訊音視頻實驗室正式成立,最初成立時只有7個人的音視頻中心,如今已有80多人。除了繼續保障QQ的音視頻通話,將它的能力開放出來,在企業級市場上有所作為,也成了音視頻實驗室的新任務。
從音視頻通話到直播:技術、需求都要隨人性而改變
2015年,隨著4G和智慧手機的普及,移動直播開始成為一個新的熱點。其實在技術上,直播並不是一個新興的東西,早在2008年前後,六間房就開始嘗試使用Flash的技術進行網頁直播。
從網頁直播到移動直播,用戶的需求沒變,但使用的網路環境、設備、直播環境都在發生變化。例如,移動直播要解決Wi-Fi、移動網路的切換問題;而在不同的空間裡,保證音質、視頻流暢以及光線平衡,又對技術提出了新的挑戰。劉曉宇向雷鋒網舉了個例子,最早做音視頻通訊時,騰訊向GIPS採購的音視頻通話方案經常會遇到投訴,其中的一個重要原因是中國複雜的網路環境,比如南北通問題、使用者糟糕的網路連接等。
(消音實驗室,關閉大門安靜時分貝數僅為17,可以保證每次測試環境的一致)
在應對移動直播時,類似的問題同樣存在,這就需要移動技術提供商針對不同的環境進行優化,其中弱網專項優化、搶頻寬的能力、手機性能優化、機型適配、後臺轉碼能力等,都會直接影響直播間穩定、清晰度,連麥的即時性和溝通的順暢。
另外,據劉曉宇介紹,因為用戶觀看直播的微妙習慣,技術策略上也要做相應的調整。例如,在以前的視頻通話中,使用者的主要需求是低延時,所以當網路不好時,系統會自動降低視頻清晰度。但是在直播中則完全相反,“寧可卡一點,延遲稍微大一點,也不要把解析度降下來”;在研究中,劉曉宇的團隊還發現,用戶在觀看直播時非常隨性,會習慣性地滑到下一個直播,這就需要系統提前緩存畫面,讓使用者快速切換直播。
現在,騰訊已經有了一整套的直播技術解決方案,只需要幾行代碼,就可以讓企業接入騰訊直播模組,擁有騰訊的直播技術支援。
這套音視頻直播AVL(Audio Video Live)方案,依託騰訊的SPEAR音視頻通信引擎,通過騰訊直播SDK可打造跨平臺一對多、多對多的超清酷炫直播場景。除了能夠提供基礎的高清、秒開、高音質、轉碼、鑒黃能力外,還具備連麥、即時錄製、音訊直播、美顏、浮水印、混音、IM等特色能力。同時兼具旁路直播、螢幕分享、人臉識別、濾鏡、掛件等“冷僻”能力,全部能力達到17項之多,是目前能力覆蓋最全的主流直播SDK。其流暢度、音質、低延遲、下行抗丟包4項指標位居行業第一,其他核心資料也接近行業最佳。
(測試真實通話時的品質,過程中的各項資料都會被即時記錄下來)
音視頻直播AVL 的一個重要應用是直播中的連麥,現在,鬥魚、虎牙和快手,都使用了這個服務。鬥魚直播產品規劃經理汪楚峰也接受了雷鋒網的採訪,據他介紹,成立於2014年的鬥魚,現在每天開播的直播間數量超過4萬,每天的活躍用戶超過2000萬。
2015年,鬥魚開始使用騰訊提供的直播連麥功能,除了低延遲,騰訊還提供了虛擬裝扮、主播變聲等特色功能,另外在音樂場景中,騰訊對麥克風收音和音質提高上也有深入的優化。
垂直場景、語音辨識、VR,新技術之下直播還有新玩法
今年初的春節期間QQ視頻通話裡做了一個視頻表情彩蛋的玩法,說出“麼麼噠”螢幕上會出現紅唇表情,說“新年快樂”、“恭喜發財”也會有對應的驚喜表情。
這只是語音辨識在視頻通話上的初步應用。直播平臺的競爭已經出現“大魚吃小魚”的態勢,在劉曉宇看來,技術將成為直播平臺差異化的一個突破點。
今年,NOW直播已經開始測試綠幕直播,當用戶在直播過程中,環境背景為指定綠色時,可替換任意手機相冊內的照片或視頻。這種應用在電影製作中的技術,可以讓直播有更創新的玩法,有分析人士認為,它可以應用於二次元主題直播。接下來騰訊也會將該能力集成到直播SDK中去,開放給更多直播平臺使用。
(Now直播的綠幕直播)
現在的直播,秀場和遊戲直播占了絕大多數,但同時,也開始出現越來越多的垂直場景,如金融、教育類直播,在這類場景中,除了主播和觀眾,還涉及到螢幕,現在,騰訊的直播技術已經能解決三方同步、滿足螢幕解碼和CPU控制的問題。
另外,VR直播曾經被高度看好,劉曉宇告訴雷鋒網,目前VR直播的技術障礙主要在於,要保證多人同時觀看的沉浸式體驗,直播源就要傳輸360度的全量資料,而這個資料量是非常龐大的;另外,在採集全景視頻時,畫面疊加部分的拼接、分割,鏡頭的矯正都還有很長一段路要走。
不過,科技行業永遠是進步最快的領域,根據工信部和三大運營商的規劃,2020年,中國5G將正式商用,劉曉宇說,“和4G相比,5G會是一種質變,我們會時刻關注這裡的技術發展。”