您的位置:首頁>科技>正文

騰訊「AI In All」的背後,是開放AI技術能力,探索騰訊應用場景

「過去一年中, 我們聽到不少公司在談到未來的時候都會談到一個詞, 叫做「All In AI」, 騰訊在 AI 方面的戰略也用一個詞概括, 那就是「AI In All」, 希望我們研發的 AI 技術並不是關起門來服務自己的產品, 而是開放出來, 分享給全行業, 真正和各行各業的實際應用結合, 從而讓 AI 得到實際價值的發揮。 」11 月 8 日, 騰訊 2017 年全球合作夥伴大會在成都舉辦, 騰訊 COO 任宇昕在演講中提到。

那麼, 騰訊如何 AI In All?

答案是:以「基礎研究、場景共建、AI 開放」為戰略層層遞進。 在基礎研究方面, 據騰訊 AI Lab 主任、傑出科學家張潼介紹, 騰訊將著重于語音辨識、自然語言處理、電腦視覺、機器學習這四大領域。

而 AI Lab 自成立以來, 至今為止共發表論文 81 篇, 目前在 CVPR、ACL、ICML 共入選論文量 21 篇, NIPS 發表 1 篇。

場景共建

在場景共建層面上, 遊戲、社交和內容作為騰訊的三大核心優勢, 自然會首先使用到 AI 技術。

1. 遊戲場景

在此前的演講中, 張潼曾經提到遊戲與 AI 的結合, 他認為, 遊戲場景能夠積累決策系統、增強學習等一系列基礎技術, 而這些基礎技術的積累, 除了能在遊戲場景中發揮作用之外, 也可以在無人車等領域得以使用。

在騰訊合作夥伴大會 11 月 8 日的「創想·人工智慧」論壇中, 騰訊 AI Lab 機器學習中心負責人劉晗發表《遊戲 AI:虛擬世界對物理世界的賦能》演講時表示, 遊戲 AI 是人工智慧與博弈論的一個交叉領域。 從小的方面來說,

遊戲 AI 研究如何用人工智慧技術來提升人類玩遊戲的體驗。 從大的方面來說, 遊戲 AI 研究人, 智慧體, 以及環境之間的複雜交互關係, 而這遠不止於遊戲本身。

對於騰訊來說, 則對遊戲研究的三個核心能力感興趣。 第一是感知的能力, 第二是對話的能力, 第三是決策的能力。 劉晗認為, 這相當於人類大腦的三個不同區域。 比如說, 決策相當於左腦, 對話能力相當於右腦, 而感知相當於人類大腦的後腦那一部分。

具體來說, 涉及對外界環境的感知, 根據狀態做出的決策, 人與智慧體之間的對話。 比如, 圍棋中的遊戲場景, 可以通過感知棋盤的全域表達狀態決定在哪裡落子。 現實中的無人車, 同樣可以通過視覺, 雷射雷達的感知對方向盤,

刹車等動作做出決策。

「這是一個富有挑戰而令人振奮的研究課題, 研究當中累積的經驗、方法與結論, 能在更廣大深遠的範圍被利用。 」劉晗認為, 首先能夠打通虛擬與現實世界的藩籬, 從而賦能物理世界, 比如無人車和機器人的發展;其次, 遊戲中對話智慧的研究, 或能成為通向強人工智慧的重要路徑;第三, 研究遊戲中人、智慧體和環境的交互, 能讓智慧城市這樣複雜而意義深遠的項目受益。

但是, 劉晗認為, 研究遊戲 AI 挑戰很大。

一, 遊戲的狀態空間過大。 比如很多戰略型遊戲的狀態空間是無窮維, 遠大於圍棋空間。 因此, 騰訊研發了機器人大腦, 這是整合了模型、演算法與計算體系結構的解決方案, 整個系統的核心是使用深度神經網路來建模超大規模的狀態空間。

二, 大量複雜的多玩家遊戲需要多個智慧體協調操作。 然而, 劉晗指出, 目前還缺乏這方面的理論支持。 而要設計出一個完善的多智慧體 AI, 將強化學習的價值網路與描述宏觀戰略的行為樹進行交互操作, 並使其融合是核心問題所在。

三, 絕大部分遊戲 AI 是用模擬器在一個理想化的虛擬世界中開發。 如何打通虛擬與現實, 同樣是一個核心挑戰。 騰訊的解決方案結合反向強化學習及動態探索機制, 對遊戲 AI 中的參數進行貝葉斯升級。 以此保證在現實世界花最小的成本來成功部署。

「這一套感知、對話與決策模組, 形成了一套通用系統, 未來有望在現實中被應用到更多場景中,

這就是我們說的虛擬對現實的賦能。 」劉晗在演講中總結道。

2. 社交場景

社交方面, 張潼在此前曾表示, 他們主要關注對自然語言的理解、語音辨識、智慧家居的交互, 例如語音辨識和機器翻譯, 還有智慧助手、聊天機器人、人機對話的開發。

同樣是在「創想·人工智慧」論壇中, 騰訊 AI Lab 機器翻譯平臺側負責人楊月奎則帶來了他們在機器翻譯中的最新進展, 而在現場, 他的演講內容同樣進行了即時翻譯。

然而, 楊月奎認為即時翻譯, 並不容易。 儘管因為神經網路機器翻譯(NMT)的出現, 錯誤率大幅下降, 但楊月奎認為, 依然面臨眾多挑戰。 比如, 會面臨譯文忠實度的問題, 很有可能譯文丟失或跑飛。 對此, 他們則使用互動式的 Attention 模型來增強 Attention 機制, 利用重構模型加強翻譯完整性的學習,利用 Rerank 模型選取更優的譯文。

而有一些低頻詞,訓練難度也更大,有些實體詞很可能翻譯不出來。為了加強對低頻詞的訓練,引入子詞模型。

此外,對訓練資料的規模,也有著更高的要求。因此,為了提升訓練效率,他們採取並行訓練框架,支持多機多卡並行訓練。除此之外,還加入了深層網路、殘差網路和模型融合等技術。

據介紹,目前他們已支持中文、英語、粵語、日語、韓語、法語、德語、西班牙、越南語等多種語言。

對於社交 AI 的研究,張潼則表示,下一個社交是基於人機對話的涉及,語音辨識,會持續下去。會跟業務部分合作,也會有一些新的產品推出。

3. 內容場景

「分析內容、理解內容、理解使用者,更好的匹配,更好的搜索推薦是我們在研究的重點。」張潼說。

多媒體則是其中重要的部分。「我們正在進入一個「多媒體內容消費」的時代,每個中國人每天都在消費大量的多媒體內容,也在提供大量的多媒體資料。在 AI 領域,多媒體 AI 將賦予電腦處理、識別、理解內容的綜合能力。從圖像到多媒體,資料維度大大提升,我們希望走出一條自主的創新之路,因此發展了三個基礎 AI 能力:處理、識別、理解。」騰訊 AI Lab 電腦視覺中心負責人劉威在「創想·人工智慧」論壇中發表以《多媒體 AI:睜開機器之眼》為主題的演講時說。

劉威介紹,在這些方面,他們取得了一些科研成果。比如在 OCR(Optical Character Recognition,譯為光學字元辨識)任務中取得六個第一,其中三項是針對網路圖片文本,另外三項是針對聚焦場景文本。

另外,由於視頻人臉檢測和識別需要克服視頻中人臉的低解析度、姿態、遮擋、表情、妝容、光照等挑戰。在這方面,他們也取得了比較好的結果。

此外,還有圖像描述生成技術。「圖像識別,是電腦識別目前最有挑戰的課題之一。因為要進行圖像到文本之間的有機過度。要全域和局部表示,圖像和文本之間用原創的機制連接它們,整個架構進行端對端的訓練,最後才能得到一個很好的模型。」劉威說。

「我們對整個深度學習架構(包括卷積神經網、長短時記憶網、多階段注意力)進行端對端的訓練,實現圖像到文本的有機過渡,得到一個很好的模型。這項技術目前在最權威的 MS COCO 資料集上排名第一。」劉威表示。

基於這項技術,他們開發出了一個中文圖示生成的系統,「每個人上傳一張圖片到 QQ 空間,我們都知道這些圖片在說什麼。同時可以對圖像文本進行一個對話,對於可視的內容進行交互。如果殘障人士看不到這個圖像,這個系統可以告訴他圖像裡面是什麼。」劉威介紹道。

而在 7 月,騰訊 QQ 上線了視頻濾鏡的功能。據劉威介紹,這個需要深度網路保持時空的一致性,高效實現渲染後的視頻。

「這裡面有很多層技術,我們有一系列 3D 圖像演算法,這個定位都是即時運行,當你的手機動的時候,我的演算法仍然在跑,能夠永遠的知道你這個 3D 的東西在什麼地方?我們的視覺演算法是即時的運行。有很多運營的場景。包括我們的遊戲娛樂,包括場景呈現與機器人識別都有。」劉威表示,他們的目標是打造最高級的技術,最好的技術,希望建立一個非常好的技術矩陣,涵蓋多種處理視頻分發,最後能夠覆蓋整個 AI,並將這些技術持續開發輸出給合作夥伴。

作為一個 AI 實驗室,張潼表示,在跟騰訊內部的應用場景合作時,AI Lab 會把自己的成果展示給業務部門,比如在人臉識別技術上,騰訊在評測的資料上拿到了兩項第一,而人臉識別的多處研究就是如何把模型做得更強以便提升人臉識別效果,而有了這個模型之後,業務部門就會找上門來,比如視頻部門,會來諮詢如何識別觀眾關心的明星,以提高用戶體驗。

探索AI與傳統行業

除了將 AI 技術應用於內部的產品之外,騰訊還積極探索 AI 與傳統行業的結合,「騰訊覓影」就在這樣的背景下推出。它由騰訊互聯網+合作事業部牽頭,聚合了 AI Lab、優圖實驗室、架構平臺部,融合了圖像識別、深度學習等技術的醫療應用。

據介紹,「騰訊覓影」每個月能夠處理上百萬張醫學影像,而食管癌、肺癌、糖尿病三個病種的篩查,已經進入臨床預試驗。「騰訊覓影」對食管癌早篩的準確率超過 90%,肺結節早篩系統準確率超過 95%,可檢測 3 毫米及以上的微小結節,糖網病變識別準確率更高達 97%。

除了食管癌、肺結節和糖網病變外,「騰訊覓影」還將進軍乳腺癌、宮頸癌等病種的篩查。

除了醫療之外,據介紹,騰訊 AI 在金融、零售、其他商業方面還將有大量應用案例,接下來騰訊將借助騰訊雲和 AI 開放平臺,為「AI in all」戰略服務。

開放AI能力

「過去一年多公司在全世界請了很多科學家,提高 AI 研發能力,騰訊有很多遊戲音樂等場景可以 AI 化,外界的很多傳統行業需要 AI 改造,要打造生態平臺。」騰訊開放平臺副總經理王蘭在演講中表示。

在平臺層上,則將以騰訊開放平臺為載體,從扶持合作夥伴、AI 人才引進、專案打造,降低 AI 創新創業門檻,使騰訊 AI 與行業協同發展,「下一年要開放騰訊的 AI 能力,比如騰訊開放平臺,但是明年希望給大家更多的服務。這裡面會做一系列平臺型的工作,對於開發者中小企業自己做不了的事情,可以利用開放平臺增加自己的能力。」張潼說。

騰訊AI Lab除了研究AI基礎能力和探索應用場景之外,跟高校合作培養AI人才,也是他們的一個計畫

目前,在騰訊 AI 能力對外開放上,騰訊開放平臺已推出了人工智慧網站 AI.QQ.COM 和騰訊 AI 加速器。前者會接入騰訊的情感分析、智慧閒聊、機器翻譯、自然語言處理、語音辨識、語音合成、聲紋識別等 AI 能力。而後者自 2017 年騰訊發佈 AI 加速器計畫之後,從全球 1000 個專案中挑選了 25 家進行合作,入駐騰訊 AI 加速器的公司不僅可以獲得資源等方面的支持,AI.QQ.COM 的 AI 能力也正在向他們開放。

利用重構模型加強翻譯完整性的學習,利用 Rerank 模型選取更優的譯文。

而有一些低頻詞,訓練難度也更大,有些實體詞很可能翻譯不出來。為了加強對低頻詞的訓練,引入子詞模型。

此外,對訓練資料的規模,也有著更高的要求。因此,為了提升訓練效率,他們採取並行訓練框架,支持多機多卡並行訓練。除此之外,還加入了深層網路、殘差網路和模型融合等技術。

據介紹,目前他們已支持中文、英語、粵語、日語、韓語、法語、德語、西班牙、越南語等多種語言。

對於社交 AI 的研究,張潼則表示,下一個社交是基於人機對話的涉及,語音辨識,會持續下去。會跟業務部分合作,也會有一些新的產品推出。

3. 內容場景

「分析內容、理解內容、理解使用者,更好的匹配,更好的搜索推薦是我們在研究的重點。」張潼說。

多媒體則是其中重要的部分。「我們正在進入一個「多媒體內容消費」的時代,每個中國人每天都在消費大量的多媒體內容,也在提供大量的多媒體資料。在 AI 領域,多媒體 AI 將賦予電腦處理、識別、理解內容的綜合能力。從圖像到多媒體,資料維度大大提升,我們希望走出一條自主的創新之路,因此發展了三個基礎 AI 能力:處理、識別、理解。」騰訊 AI Lab 電腦視覺中心負責人劉威在「創想·人工智慧」論壇中發表以《多媒體 AI:睜開機器之眼》為主題的演講時說。

劉威介紹,在這些方面,他們取得了一些科研成果。比如在 OCR(Optical Character Recognition,譯為光學字元辨識)任務中取得六個第一,其中三項是針對網路圖片文本,另外三項是針對聚焦場景文本。

另外,由於視頻人臉檢測和識別需要克服視頻中人臉的低解析度、姿態、遮擋、表情、妝容、光照等挑戰。在這方面,他們也取得了比較好的結果。

此外,還有圖像描述生成技術。「圖像識別,是電腦識別目前最有挑戰的課題之一。因為要進行圖像到文本之間的有機過度。要全域和局部表示,圖像和文本之間用原創的機制連接它們,整個架構進行端對端的訓練,最後才能得到一個很好的模型。」劉威說。

「我們對整個深度學習架構(包括卷積神經網、長短時記憶網、多階段注意力)進行端對端的訓練,實現圖像到文本的有機過渡,得到一個很好的模型。這項技術目前在最權威的 MS COCO 資料集上排名第一。」劉威表示。

基於這項技術,他們開發出了一個中文圖示生成的系統,「每個人上傳一張圖片到 QQ 空間,我們都知道這些圖片在說什麼。同時可以對圖像文本進行一個對話,對於可視的內容進行交互。如果殘障人士看不到這個圖像,這個系統可以告訴他圖像裡面是什麼。」劉威介紹道。

而在 7 月,騰訊 QQ 上線了視頻濾鏡的功能。據劉威介紹,這個需要深度網路保持時空的一致性,高效實現渲染後的視頻。

「這裡面有很多層技術,我們有一系列 3D 圖像演算法,這個定位都是即時運行,當你的手機動的時候,我的演算法仍然在跑,能夠永遠的知道你這個 3D 的東西在什麼地方?我們的視覺演算法是即時的運行。有很多運營的場景。包括我們的遊戲娛樂,包括場景呈現與機器人識別都有。」劉威表示,他們的目標是打造最高級的技術,最好的技術,希望建立一個非常好的技術矩陣,涵蓋多種處理視頻分發,最後能夠覆蓋整個 AI,並將這些技術持續開發輸出給合作夥伴。

作為一個 AI 實驗室,張潼表示,在跟騰訊內部的應用場景合作時,AI Lab 會把自己的成果展示給業務部門,比如在人臉識別技術上,騰訊在評測的資料上拿到了兩項第一,而人臉識別的多處研究就是如何把模型做得更強以便提升人臉識別效果,而有了這個模型之後,業務部門就會找上門來,比如視頻部門,會來諮詢如何識別觀眾關心的明星,以提高用戶體驗。

探索AI與傳統行業

除了將 AI 技術應用於內部的產品之外,騰訊還積極探索 AI 與傳統行業的結合,「騰訊覓影」就在這樣的背景下推出。它由騰訊互聯網+合作事業部牽頭,聚合了 AI Lab、優圖實驗室、架構平臺部,融合了圖像識別、深度學習等技術的醫療應用。

據介紹,「騰訊覓影」每個月能夠處理上百萬張醫學影像,而食管癌、肺癌、糖尿病三個病種的篩查,已經進入臨床預試驗。「騰訊覓影」對食管癌早篩的準確率超過 90%,肺結節早篩系統準確率超過 95%,可檢測 3 毫米及以上的微小結節,糖網病變識別準確率更高達 97%。

除了食管癌、肺結節和糖網病變外,「騰訊覓影」還將進軍乳腺癌、宮頸癌等病種的篩查。

除了醫療之外,據介紹,騰訊 AI 在金融、零售、其他商業方面還將有大量應用案例,接下來騰訊將借助騰訊雲和 AI 開放平臺,為「AI in all」戰略服務。

開放AI能力

「過去一年多公司在全世界請了很多科學家,提高 AI 研發能力,騰訊有很多遊戲音樂等場景可以 AI 化,外界的很多傳統行業需要 AI 改造,要打造生態平臺。」騰訊開放平臺副總經理王蘭在演講中表示。

在平臺層上,則將以騰訊開放平臺為載體,從扶持合作夥伴、AI 人才引進、專案打造,降低 AI 創新創業門檻,使騰訊 AI 與行業協同發展,「下一年要開放騰訊的 AI 能力,比如騰訊開放平臺,但是明年希望給大家更多的服務。這裡面會做一系列平臺型的工作,對於開發者中小企業自己做不了的事情,可以利用開放平臺增加自己的能力。」張潼說。

騰訊AI Lab除了研究AI基礎能力和探索應用場景之外,跟高校合作培養AI人才,也是他們的一個計畫

目前,在騰訊 AI 能力對外開放上,騰訊開放平臺已推出了人工智慧網站 AI.QQ.COM 和騰訊 AI 加速器。前者會接入騰訊的情感分析、智慧閒聊、機器翻譯、自然語言處理、語音辨識、語音合成、聲紋識別等 AI 能力。而後者自 2017 年騰訊發佈 AI 加速器計畫之後,從全球 1000 個專案中挑選了 25 家進行合作,入駐騰訊 AI 加速器的公司不僅可以獲得資源等方面的支持,AI.QQ.COM 的 AI 能力也正在向他們開放。

Next Article
喜欢就按个赞吧!!!
点击关闭提示