華文網

專訪光明日報、三角獸和碼隆科技,看中央機關報如何利用 AI 完成升級

雷鋒網按:前段時間,光明日報用戶端上線“小明AI兩會”功能,首次將人工智慧技術應用於兩會報導中。用戶通過手機拍一張全國兩會代表委員或光明日報刊載的照片,小明就能識別出照片中的人物或刊載的照片,

並展示這名代表委員在履職期間關注的主要領域,同時以人物圖譜的形式,展示與其關注同樣領域的其他代表委員。

小明AI兩會功能,最直接的體現是改變傳統的交互模式,主要以照片、語音形式進行交互,同時也提供了文字輸入方式。

雷鋒網瞭解到,“小明AI兩會”的後臺技術主要由三角獸科技以及碼隆科技提供。

據悉,為快速識別代表委員,AI小明專案組抓取了數萬張照片對小明進行模型訓練;與此同時,三角獸科技為了讓“小明”瞭解代表委員的履職情況,分析了 40 多萬篇有關媒體報導和官方報告對其進行訓練,從 29 萬個詞彙中挖掘出近 5000 個與兩會相關的關鍵字,並據此整理出針對每一位元代表委員的個性化報導。

光明日報為何要嘗試人工智慧?

當下不少媒體面臨內容再消化問題,文章發出後的時效性往往較短。光明網希望借助 AI 的能力不斷把過往的經典內容再次挖掘出來,並在合適的場景中重現。其中小明 AI 兩會就是一個讓過往兩會內容再消化的典型案例。

小明AI兩會功能是光明日報小明在人臉識別、圖像識別、大資料方面的一次探索與自身技能的完善,

小明還具備語音溝通、天氣查詢、機票預訂等功能。小明是光明日報在 2016 年 11 月推出的國內首款人工智慧新聞資訊服務平臺,專案開始之初,無論是人員還是資源投入都非常之多。大力招收相關人才,同時廣泛聯繫人工智慧領域公司展開合作。

“AI 與媒體相結合的產品以什麼樣的形式呈現給讀者和用戶會比較好?”這個棘手的問題擺在了光明網面前。

媒體的首要任務是提供資訊服務,

即便是推出新興的 AI 產品,也一定不能離開媒體的資訊服務本身。光明網認為,不管產品與多少新技術結合,其核心功能仍舊是提供新聞,AI 只是一種輔助手段幫助他們獲得更好的新聞閱讀體驗和對話模式。

如果把新聞資訊集成在聊天機器人裡面,用戶不僅可通過小明直接查看新聞,同時也可與機器人聊天,豐富與用戶溝通。

在經過一段時間開發後,

於 2016 年光明小明問世。

當使用者用文本或語音的形式對小明說“我要看時政新聞”,它便會提供當天的時政要聞。此外,“光明小明”還能為用戶提供查天氣、訂機票、搜電影等生活資訊服務,也可以完成閒聊形式的陪聊。

兩會前夕對 AI 的新需求

兩會期間,各家媒體要從較為同質的相關報導以及內容分發中脫穎而出並不容易。在內容創新難度較大的前提下,形式上的創新便成了提升競爭力的重要因素。如南方日報在兩會期間採用了非常炫酷的 H5 做宣傳,在視覺呈現效果上與此前火熱的 H5 《吳亦凡即將入伍》相似。

光明網也早早開始籌備兩會報導的創新形式。去年年底,光明網同三角獸進行“小明AI兩會”功能的對接,三角獸CTO亓超說,第一次與光明網碰面時,他們對兩會功能提出了自己的想法。三角獸根據 AI 技術的現狀和兩會話題,對提出的需求做出一定修剪。

2 月 6 號開始,AI小明專案組開始著手開發“小明AI兩會”功能。

通過輸入自然語言或圖像識別的方式跳轉到代表和委員的詳細頁面。

下圖為兩會委員和代表的頁面,主要技術均由三角獸提供,這裡以雷軍為例:

亓超介紹到,人物圖譜是把人物屬性比較相近的群體進行計算,通過語料和個人資料來計算他們之間的關係。除了雷軍的關係圖之外,也有其他人之間的關係網絡。

下圖則為通過演算法挖掘的雷軍關注領域的關鍵字。

第三部分是相關新聞和熱點新聞。該功能背後的本質新聞搜索,根據人物關鍵字和自己所關注的領域挖掘人物跟兩會相關的報導。

兩會熱點通過對熱點詞和相關報告進行挖掘,除了今年兩會的報導外,還包括往年所有兩會的上百萬篇報導和百科資料以及政府網站報告。總共挖掘的詞有幾十萬,通過資料清洗和反覆運算把有用的資料保存。

在談到“光明AI兩會”功能的最大難點在哪裡時,亓超主要提到兩點:準確和有力,尤其是兩會相關的報導一定要匹配準確,容不得半點差錯。在“有力”層面,AI 抓取的內容儘量做到要和人為採編有所不同,發揮機器的優勢。

而背後幾十萬篇報導的篩選,這內部涉及到一個排序問題。排序方式與根據傳統搜素中的“焦點”、“關鍵字”、“位置”、“權重”、“時間”、“來源”類似,同時內容必須緊扣兩會主題。整個過程純粹靠機器來完成,然後靠人力來抽查。當然,在面對大量資料時也不可避免地會遇到格式錯誤和抓取失敗等問題。經過大量的技術研究和溝通,對面臨的問題進行了解決。

AI 賦予“小明”未來

光明網產生對於光明日報刊載圖片識別的需求後,找到了在圖像識別領域有著深厚積累的碼隆科技。

碼隆科技 CEO 黃鼎隆向雷鋒網透露:碼隆和三角獸都是微軟創投加速器孵化的企業,彼此前期就有所瞭解,因此三角獸向《光明日報》推薦了我們,合力開發這個功能。

在問到這個功能“小明AI兩會”功能如何時,黃鼎隆說到:

我對它最滿意的地方是易用性。因為整個酷炫識別功能的實現,是光明網的同事自己在我們的人工智慧平臺上搭建起來的,並不需要我們進行過多定制化的開發。其實人工智慧技術要想落地、商業化,很重要的是要使普通人,也就是不一定懂得高深科技的人也能輕鬆使用。我們創造 ProductAI 這個平臺的初衷就是希望把領先的深度學習和電腦視覺技術,通過搭建這個雲端平臺,使開發者們不需要懂得很複雜的技術原理,只需要進行很簡單的對接,就可以把最先進的人工智慧技術植入到他們的產品中。小明AI兩會的案例就充分說明了這一點。

在面對中央機關報擁抱 AI 這件事上,黃鼎隆也不禁感慨到 AI 的影響力已經開始滲透到傳統企業當中,而且此次兩會政府也把“人工智慧”寫進工作報告當中,可見 AI 已不僅僅是一個純粹的科技話題了。包括很多傳統領域的大機構、大企業,比如說中國紡織資訊中心、《光明日報》都是非常積極地擁抱和嘗試最新技術。

小明AI兩會功能成功推出後,多家媒體找到了碼隆科技,也想體驗這樣的圖像識別服務。根據黃鼎隆介紹,此次合作,從開發到提供服務,只花了一個週末,這在以往如果是客戶方自己開發相關功能,成本非常高昂,而現在以 API 的形式接入服務,顯然要划算很多。

傳媒將如何深化 AI 的應用

光明網方面表示:小明 AI 兩會功能,是光明網在推出小明機器人後的進一步探索,也是對小明技能、本領的進一步完善,接下來還將不斷優化,持續發現類似的新功能。

亓超在採訪過程中提出:傳統機構對人工智慧瞭解程度可能不夠深入,但這完全不妨礙他們提出一些非常妥當的落地功能和場景。同時也會同光明網展開更多的合作,其中包括內容體系和對話系統的升級。

內容分發形式的升級

針對不同類型的文章如科技、軍事、時政等板塊進行深度挖掘,從而完成可定制的、個性化的內容分發。分發的內容不僅僅局限于文本,還包括圖像、音訊、視頻等形式。

對話系統的升級

三角獸也將會對光明日報小明的對話系統進行再升級。

在對話系統方面,由於當下聊天機器人給使用者回復的話語內容並不是非常嚴謹和正統,且機器回復內容過於零散,因此三角獸接下來需要做的事情就是把機器給人回復的每一句話都進行更嚴格篩選和訓練。

亓超說到,這裡面臨最大的挑戰是,在接下來的專案中,對話機器人給使用者回答的所有話語均來自專業的媒體報導和官方報告,而非傳統的對話語料庫。這其中涉及到純文字理解。

新聞和報告是一種純文字的、非結構化資料,這類嚴肅的報導中沒有“某人問一個問題,另外一個人回復”這樣現成的問答資料。

這種情況下需要給機器喂一些文章,讓它去自動消化,然後把它轉化成對話式資料。

我們知道,一篇新聞裡由很多句話組成,每句話周圍的文本資訊,其實都是用來表述這句話使用的背景。因此線上上對話時,第一步都需要用線上對話的文本跟新聞中這句話周圍的文本去做計算,把它應用在適合它的場景中。

第二步是將每句輸出的話都和上下文做計算,計算出回復這樣一句話是否合適。

舉個例子,以純聊天為例,當對方回答“謝謝”兩字,我們一定要回復與謝謝相等或約等的對話如:謝謝、非常感謝、謝謝你。傳統對話中,我們通過抓取人為語料庫中的對話資料來實現,在面對“謝謝你”時可能反應的是不用謝、不客氣。這時候就會把謝謝你和不用謝、不客氣做一個計算,看兩者可否做一個語義一致性的回復。

回到從新聞中抓取資訊然後應用在對話系統中的應用,每句話周圍的話代表問題,周圍那句話是否合適,需要經過上述兩個步驟進行計算。

以小孩子學習舉例,小孩學習語言是通過兩個管道完成的:在他不認字的初始階段,需要靠聽父母以及別人之間的對話來進行學習。長大以後他通過閱讀的方式去消化內容,從而把閱讀中獲取的內容轉化成自己的一種表達。

通過周圍環境中人物的對話進行學習,可以理解為傳統的聊天機器人做法:去拿一問一答的資料,然後應用在對話系統中。

而通過閱讀的方式來學習,其實就屬於剛才提到的新聞消化和周邊語句計算。

亓超對說到:目前市場上很少有這樣的對話系統,雖然極具挑戰,但非常有意思。

就在採訪結束後,光明日報用戶端又解決了“深度連結”的問題,不得不再次感慨這家機關報對新技術的接受度遠高於同類機構。

如南方日報在兩會期間採用了非常炫酷的 H5 做宣傳,在視覺呈現效果上與此前火熱的 H5 《吳亦凡即將入伍》相似。

光明網也早早開始籌備兩會報導的創新形式。去年年底,光明網同三角獸進行“小明AI兩會”功能的對接,三角獸CTO亓超說,第一次與光明網碰面時,他們對兩會功能提出了自己的想法。三角獸根據 AI 技術的現狀和兩會話題,對提出的需求做出一定修剪。

2 月 6 號開始,AI小明專案組開始著手開發“小明AI兩會”功能。

通過輸入自然語言或圖像識別的方式跳轉到代表和委員的詳細頁面。

下圖為兩會委員和代表的頁面,主要技術均由三角獸提供,這裡以雷軍為例:

亓超介紹到,人物圖譜是把人物屬性比較相近的群體進行計算,通過語料和個人資料來計算他們之間的關係。除了雷軍的關係圖之外,也有其他人之間的關係網絡。

下圖則為通過演算法挖掘的雷軍關注領域的關鍵字。

第三部分是相關新聞和熱點新聞。該功能背後的本質新聞搜索,根據人物關鍵字和自己所關注的領域挖掘人物跟兩會相關的報導。

兩會熱點通過對熱點詞和相關報告進行挖掘,除了今年兩會的報導外,還包括往年所有兩會的上百萬篇報導和百科資料以及政府網站報告。總共挖掘的詞有幾十萬,通過資料清洗和反覆運算把有用的資料保存。

在談到“光明AI兩會”功能的最大難點在哪裡時,亓超主要提到兩點:準確和有力,尤其是兩會相關的報導一定要匹配準確,容不得半點差錯。在“有力”層面,AI 抓取的內容儘量做到要和人為採編有所不同,發揮機器的優勢。

而背後幾十萬篇報導的篩選,這內部涉及到一個排序問題。排序方式與根據傳統搜素中的“焦點”、“關鍵字”、“位置”、“權重”、“時間”、“來源”類似,同時內容必須緊扣兩會主題。整個過程純粹靠機器來完成,然後靠人力來抽查。當然,在面對大量資料時也不可避免地會遇到格式錯誤和抓取失敗等問題。經過大量的技術研究和溝通,對面臨的問題進行了解決。

AI 賦予“小明”未來

光明網產生對於光明日報刊載圖片識別的需求後,找到了在圖像識別領域有著深厚積累的碼隆科技。

碼隆科技 CEO 黃鼎隆向雷鋒網透露:碼隆和三角獸都是微軟創投加速器孵化的企業,彼此前期就有所瞭解,因此三角獸向《光明日報》推薦了我們,合力開發這個功能。

在問到這個功能“小明AI兩會”功能如何時,黃鼎隆說到:

我對它最滿意的地方是易用性。因為整個酷炫識別功能的實現,是光明網的同事自己在我們的人工智慧平臺上搭建起來的,並不需要我們進行過多定制化的開發。其實人工智慧技術要想落地、商業化,很重要的是要使普通人,也就是不一定懂得高深科技的人也能輕鬆使用。我們創造 ProductAI 這個平臺的初衷就是希望把領先的深度學習和電腦視覺技術,通過搭建這個雲端平臺,使開發者們不需要懂得很複雜的技術原理,只需要進行很簡單的對接,就可以把最先進的人工智慧技術植入到他們的產品中。小明AI兩會的案例就充分說明了這一點。

在面對中央機關報擁抱 AI 這件事上,黃鼎隆也不禁感慨到 AI 的影響力已經開始滲透到傳統企業當中,而且此次兩會政府也把“人工智慧”寫進工作報告當中,可見 AI 已不僅僅是一個純粹的科技話題了。包括很多傳統領域的大機構、大企業,比如說中國紡織資訊中心、《光明日報》都是非常積極地擁抱和嘗試最新技術。

小明AI兩會功能成功推出後,多家媒體找到了碼隆科技,也想體驗這樣的圖像識別服務。根據黃鼎隆介紹,此次合作,從開發到提供服務,只花了一個週末,這在以往如果是客戶方自己開發相關功能,成本非常高昂,而現在以 API 的形式接入服務,顯然要划算很多。

傳媒將如何深化 AI 的應用

光明網方面表示:小明 AI 兩會功能,是光明網在推出小明機器人後的進一步探索,也是對小明技能、本領的進一步完善,接下來還將不斷優化,持續發現類似的新功能。

亓超在採訪過程中提出:傳統機構對人工智慧瞭解程度可能不夠深入,但這完全不妨礙他們提出一些非常妥當的落地功能和場景。同時也會同光明網展開更多的合作,其中包括內容體系和對話系統的升級。

內容分發形式的升級

針對不同類型的文章如科技、軍事、時政等板塊進行深度挖掘,從而完成可定制的、個性化的內容分發。分發的內容不僅僅局限于文本,還包括圖像、音訊、視頻等形式。

對話系統的升級

三角獸也將會對光明日報小明的對話系統進行再升級。

在對話系統方面,由於當下聊天機器人給使用者回復的話語內容並不是非常嚴謹和正統,且機器回復內容過於零散,因此三角獸接下來需要做的事情就是把機器給人回復的每一句話都進行更嚴格篩選和訓練。

亓超說到,這裡面臨最大的挑戰是,在接下來的專案中,對話機器人給使用者回答的所有話語均來自專業的媒體報導和官方報告,而非傳統的對話語料庫。這其中涉及到純文字理解。

新聞和報告是一種純文字的、非結構化資料,這類嚴肅的報導中沒有“某人問一個問題,另外一個人回復”這樣現成的問答資料。

這種情況下需要給機器喂一些文章,讓它去自動消化,然後把它轉化成對話式資料。

我們知道,一篇新聞裡由很多句話組成,每句話周圍的文本資訊,其實都是用來表述這句話使用的背景。因此線上上對話時,第一步都需要用線上對話的文本跟新聞中這句話周圍的文本去做計算,把它應用在適合它的場景中。

第二步是將每句輸出的話都和上下文做計算,計算出回復這樣一句話是否合適。

舉個例子,以純聊天為例,當對方回答“謝謝”兩字,我們一定要回復與謝謝相等或約等的對話如:謝謝、非常感謝、謝謝你。傳統對話中,我們通過抓取人為語料庫中的對話資料來實現,在面對“謝謝你”時可能反應的是不用謝、不客氣。這時候就會把謝謝你和不用謝、不客氣做一個計算,看兩者可否做一個語義一致性的回復。

回到從新聞中抓取資訊然後應用在對話系統中的應用,每句話周圍的話代表問題,周圍那句話是否合適,需要經過上述兩個步驟進行計算。

以小孩子學習舉例,小孩學習語言是通過兩個管道完成的:在他不認字的初始階段,需要靠聽父母以及別人之間的對話來進行學習。長大以後他通過閱讀的方式去消化內容,從而把閱讀中獲取的內容轉化成自己的一種表達。

通過周圍環境中人物的對話進行學習,可以理解為傳統的聊天機器人做法:去拿一問一答的資料,然後應用在對話系統中。

而通過閱讀的方式來學習,其實就屬於剛才提到的新聞消化和周邊語句計算。

亓超對說到:目前市場上很少有這樣的對話系統,雖然極具挑戰,但非常有意思。

就在採訪結束後,光明日報用戶端又解決了“深度連結”的問題,不得不再次感慨這家機關報對新技術的接受度遠高於同類機構。