您的位置:首頁>正文

清華唐傑博士詳解億級學術圖譜Open Academic Graph,如何高效精准生成6500萬對匹配關係?

雷鋒網 AI 科技評論第一時間採訪了唐傑博士, 詳細瞭解到這個億級學術圖譜和與之相關的研究難點以及技術突破。

億級數據, 籌備半年

目前這個學術圖譜中的資料集主要是論文, 包括論文中的題目、作者、會議、年份、摘要等中繼資料。 不同於國內大的學術資料庫知網、萬方等以中文為主, Open Academic Graph中的論文主要是英文。 根據唐傑博士的介紹, 如此龐大的資料集, 團隊前後花了半年時間籌備。

耗費如此多的時間和精力, 做這個資料集目的何在?唐傑博士告訴雷鋒網AI科技評論, 他們想要集成全球不同學術知識圖譜,

並公開共用學術圖譜資料和相關學術搜索與挖掘服務。 具體包括如下三點:

一是集成豐富的學術知識資料。 目前開放學術圖譜的核心資料來自微軟學術圖譜和AMiner學術圖譜, 下一步將集成更多其他學術圖譜資料, 包括擴充不同類型實體(如作者、論文等)的語義資料。 通過資料集成和資料採擷演算法將連結更多實體更精准和豐富的“畫像”資料, 包括論文的中繼資料、概念網路、研究領域、全文等和作者的基本資訊(如:職位、單位、聯繫資訊、國別、性別等)、研究興趣以及論文列表等。

二是資料共用。 通過共用不同的學術知識圖譜以及它們的連結關係, 我們希望能夠造福學術界對知識圖譜、學者合作關係、學術主題挖掘以及大規模學術圖譜連接等領域的研究。

同時, 歡迎更多來自學術社區的貢獻來進一步增強開放學術圖譜。

三是服務共用。 我們希望設計更加智慧的學術圖譜連接系統, 並提供相關的服務(如API), 以方便更多人使用服務以及加入開放學術社區。

精准匹配, 挑戰頗多

龐大的資料量, 要實現精准匹配勢必會存在各種各樣的問題。 唐傑博士坦言, 在實際的研究過程中, 由於學術資料在不同圖譜中的分佈異構特點, 同名異義和異名同義問題嚴重。 對於出現的問題, 他也舉了幾個實例來具體說明。

一是資料異構問題。 由於資料分佈在不同資料來源, 可能面臨資料異構的問題。 比如論文作者可能存在不同的格式, 如Quoc Le 和Le, Quoc。 又如,

論文所發表的期刊或會議有全稱或縮寫等多種形式。

二是同名消歧問題。 同一名字可以表示多個實體, 這也給圖譜連接帶來了很大困難。 比如常見姓名通常是匹配的難點。 在2016 年, 中國重名最多的30 個姓名中, 每個姓名重名人次達到20 萬以上。 對於論文來說, 不同論文也可能有相同的題目, 如:Data, data everywhere 在資料庫中可對應多篇文章。

除了前面提到的兩個問題, 要想實現億級數據的集成, 如何進行高效計算也是另一個重要挑戰。 唐傑博士提到, 以AMiner為例, 已經公佈的論文資料就有1.55億, 而微軟學術圖譜的公開資料也達1.6億, 計算兩個圖譜匹配關係的演算法複雜度一般來說是O(n2), 這需要大量計算。

精進演算法, 不斷突破

那麼團隊究竟如何處理這些問題?他們設計了一個折衷方法,

同時考慮精度和效率。 據介紹, 他們的方法能將演算法複雜度降低到O(nlogn)到O(n2)之間, 目前每天能夠完成約2千萬篇論文的匹配, 基本完成了合計3億篇論文的自動匹配, 並保證了高匹配精度。

該演算法是在RiMOM演算法的基礎上進行了改進。

具體來說, 我們設計了一個針對大規模論文匹配的非同步搜索框架。 對於AMiner中的每篇論文, 我們根據題目在MAG中搜索可能匹配的論文, 每次搜索的時間在幾百毫秒到幾秒不等。 通過非同步搜索的策略, 可以做到平均每秒搜索到20餘篇論文, 使得大規模的圖譜連結可以達到較快的速度。

為進一步提高自動集成速度, 他們還嘗試了兩個新的匹配演算法MHash和MCNN。

MHash是利用雜湊演算法, 將每篇論文轉化為一串二值編碼, 計算兩篇論文之間的漢明距離。 由於使用了雜湊, 該演算法速度很快, 但同時精度也有所降低, 大概能保持93+%的匹配準確率。 MCNN是基於卷積神經網路的深度學習方法, MCNN基於單詞之間的相似度構造兩篇論文的相似矩陣, 然後利用卷積神經網路來捕捉文本之間的相似模式。

採訪過程中, 唐傑博士還提到在實際的操作過程中, 該方法可以緩解資料異構的問題。 如:對於作者Quoc Le 和Le, Quoc, 它們對應位置上的單詞是不相似的, 但是在相似矩陣中可以捕捉不對應位置上單詞的相似度。 該方法可以達到非常高的匹配準確率(98%+)。 兩個論文匹配演算法均結合了論文的多個屬性, 如題目、作者等減輕同名消歧問題。

總結

唐傑博士團隊與微軟聯合發佈的Open Academic Graph,不管對學界還是對業界來說都有極大的意義。一方面能助力大家當前的研究,另一方面也能吸引更多人來進行學術知識圖譜相關的研究。

在未來,他們還將研究如何集成大規模異構學術圖譜中不同類型的實體(如作者、會議等),公佈更多學術圖譜連接資料(如作者連接資料),設計更加智慧的學術圖譜連接系統並提供相應的服務。

最快今年年底,我們可能就會看到更大的資料集。雷鋒網 AI 科技評論也將持續關注。

總結

唐傑博士團隊與微軟聯合發佈的Open Academic Graph,不管對學界還是對業界來說都有極大的意義。一方面能助力大家當前的研究,另一方面也能吸引更多人來進行學術知識圖譜相關的研究。

在未來,他們還將研究如何集成大規模異構學術圖譜中不同類型的實體(如作者、會議等),公佈更多學術圖譜連接資料(如作者連接資料),設計更加智慧的學術圖譜連接系統並提供相應的服務。

最快今年年底,我們可能就會看到更大的資料集。雷鋒網 AI 科技評論也將持續關注。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示