機器智慧加速器：大資料環境下知識工程的機遇和挑戰

導讀：知識圖譜已經成為推動人工智慧發展的核心驅動力之一。本文選自清華大學電腦科學與技術系教授、清華-青島資料科學研究院科技大資料研究中心主任李涓子老師于2017年12月20日在阿裡聯合中文資訊學會語言與知識計算專委會舉辦的知識圖譜研討會上做的以“知識工程：機器智慧的加速器”為題的報告。李涓子老師在報告中概述了與知識圖譜密切相關的在大資料環境下的知識工程在知識表示、知識獲取、知識推理計算以及知識服務中面臨的研究挑戰，並介紹了在知識圖譜的相關研究工作。

後臺回復關鍵字“知識工程”，下載完整版PPT。

李涓子，清華大學電腦科學與技術系教授，博士生導師。清華-青島資料科學研究院科技大資料研究中心主任、中國中文資訊學會語言與知識計算專委會主任、中國電腦學會術語委員會執行委員。

研究興趣是語義 Web，新聞挖掘與跨語言知識圖譜構建。多篇論文在重要國際會議(WWW、IJCAI、SIGIR、SIGKDD)和學術期刊(TKDE、TKDD)上發表。主持多項國家級、部委級和國際合作專案研究，包括國家自然科學基金重點項目、歐盟第七合作框架、新華社項目等。獲得 2013 年人工智慧學會科技進步一等獎， 2013年電子學會自然科學二等獎。

以下是演講實錄：

今天我的演講主題是“知識工程：機器智慧的加速器”，下面我將結合資料、資訊、知識、智慧等相關概念及其關係回顧知識工程四十年來的研究和應用發展，包括大資料時代知識工程的挑戰以及我們的部分相關工作。

一、知識工程四十年：讓機器更智慧

我們迎來了大資料時代，大資料具有規模性、多樣性、快速性和真實性等特點。

大資料正在改變我們的生活、工作和思考方式。

在這樣的背景下，大資料對智慧服務的需求已經從單純的搜集獲取資訊，轉變為自動化的知識提供服務，這也給知識工程提出了很多挑戰性的問題。我們需要利用知識工程為大資料添加語義/知識，

使資料產生智慧（smart data），完成從資料到資訊再到知識，最終到智慧應用的轉變過程，從而實現對大資料的洞察、提供使用者關心問題的答案、為決策提供支援、改進使用者體驗等目標。

今年恰逢知識工程提出40年，我們梳理了知識工程的四十年發展歷程，

總結知識工程的演進過程、技術進展以及為機器智慧所做的貢獻。

1950-1970年代圖靈測試：

人工智慧旨在讓機器能夠像人一樣解決複雜問題，智慧的評測是圖靈測試。這一階段主要湧現出兩種人工智慧方法：符號主義和連結主義。通用問題求解程式（GPS）成為當時代表性的方法：將問題進行形式化的表達，通過搜索，從問題的初始狀態，結合定義的規則或表示，得到目標狀態。典型應用是博弈論和機器定理證明等。這一時期的知識表達主要有邏輯知識表示、產生式規則、語義網路等。

1970-1990年代專家系統：

只有通用問題求解不足以支持實現智慧，Feigenbaum認為知識是機器實現智慧的核心，在70年代中後期年正式提出以專家系統為代表的知識工程概念，通過知識庫+推理實現更智慧的系統。這表明在求解問題過程中還需要注入領域知識，以此確立知識工程在人工智慧領域的核心地位。這一時期知識表示有新的演進，包括框架和腳本等。80年代後期出現很多專家系統的開發平臺，可以幫助將專家領域的知識轉變成電腦可以處理的知識。

1990-2000年代 Web1.0萬維網：

萬維網（World Wide Web）的產生為人們提供了一個開放平臺，使用HTML定義文本內容，通過超連結把文本連接起來，以此共用資訊。隨後出現了XML—標籤語言，對內容結構通過定義標籤進行標記，為後續互聯網環境下知識表示奠定了基礎。

2000-2006年代 Web2.0 群體智慧：

這一時期是資訊爆炸式增長的過程，萬維網的出現使得我們的知識從封閉走向開放，從集中成為分佈。原來專家系統是系統內部定義的知識，現在可以實現知識源之間相互連接，可以通過關聯來產生更多更豐富的知識，而非完全由確定的人或者單位生產。這個過程就是群體智慧，最典型的代表就是維琪百科，大眾用戶去建立知識，體現了互聯網大眾用戶對知識的貢獻，也今天的大規模知識圖譜的基礎。同時，在2001年萬維網發明人、2016年圖靈獎獲得者Tim Berners-Lee提出語義Web的概念，旨在對互聯網內容進行結構化語義表示，而RDF和OWL就是對內容結構化表示的標識定義，在這樣的語義表示支持下，人和機器才能夠更好協同工作。

2006年至今知識圖譜：

這一時期有很多工作在對維琪百科進行結構化，例如DBpedia、YAGO和Freebase等。Google的知識圖譜（knowledge graph）就是收購了Freebase之後產生的大規模知識圖譜。現在我們看知識圖譜的發展和應用狀況，除了通用的大規模知識圖譜，各行各業也在建立行業和領域的知識圖譜。我們也看到了恨到大規模知識圖譜的應用，包括語義搜索、問答系統與聊天、大資料語義分析以及智慧知識服務等，更多知識圖譜的創新應用還有待開發。

二、知識工程與大資料機器學習的結合

隨著資訊技術進步和大資料時代的到來，大資料機器學習也得到快速發展，基於表示學習和深度神經網路的機器學習方法獲得了巨大成果，並已經成功應用於語音辨識、圖像識別和機器翻譯等。

總結大資料驅動的深度學習的優點和局限性可以看出，當前大資料驅動的機器學習是一個黑盒的學習過程。而電腦若要實現智慧，就意味著能夠幫助人類做完成複雜工作或則做出決策。目前的大資料機器學習能夠給予一些決策支援，但用戶不會滿足於只給推薦結果，用戶希望的習得的模型解釋給出的模型為何成功何時成功等。這就是可解釋的人工智慧，這就需要與人的認知進行結合。

比如機器自動識別出一張圖片中的物體是貓，它還需要告訴我們為什麼判斷為貓，如應為貓有毛、有鬍鬚有爪子等毛的特徵，也就是告訴人們機器做決策的依據是什麼。

由此，大資料深度學習學到的是事物底層特徵空間，人能理解的對應的是事物語義空間，這當中存在語義鴻溝，而知識圖譜可以用來彌合這個鴻溝。

現在我們來看以知識驅動為代表的專家系統的典型結構：知識庫、推理引擎和人機介面。當時專家系統沒有發展起來主要受限於專家知識難以獲得以及電腦計算能力的限制。

在大資料環境下，我們可以採用自動或者半自動方法利用大資料機器學習方法從大資料中獲得知識，由此建立大資料環境下智慧系統。

三、大資料環境下知識工程的研究和挑戰

在大資料環境下，我們希望能夠從互聯網開放環境下的大資料獲得知識，用這些知識提供智慧服務反哺互聯網/行業。這是一個反覆運算的相互增強過程，最終的目的是實現從互聯網資訊服務到智慧知識服務的躍遷。

因為提出知識工程而在1994年獲得圖靈獎的Feigenbaum教授將知識工程定義為：將知識集成到電腦系統完成只有特定領域專家才能完成的複雜任務。在大資料時代，我們對此進一步改進：知識工程是從大資料中自動或半自動獲取知識，建立基於知識的系統，以此提供互聯網智慧知識服務，如語義搜索和問答系統等。

總結當前知識驅動和資料驅動的人工智慧方法，以符號表示為代表的知識驅動方法表示的知識明確、可以舉一反三、進行解釋和推理。而大資料深度學習為代表的資料驅動方法可以進行感知和記憶，進行關聯計算，但是難以解釋其推理計算過程。因此兩種方法的融合為我們研究基於知識的智慧技術提供了契機。

同時，兩種方法的融合也帶來許多挑戰性問題。下面從組成知識工程生命週期的知識建模、知識獲取、知識存儲和計算、以及知識重用的四個階段看每個階段所面臨的挑戰。

知識表示方面，主要是研究大資料知識表示的理論與方法，使知識既具有顯式的語義定義，又便於大資料環境下的知識計算與推理。

知識獲取與融合方面，主要研究知識獲取和語義關聯技術。目前符號表示的知識是稀疏的，如何在知識稀疏和大資料環境下研究知識引導的知識獲取方，獲得大規模和高精度的知識是我們面臨的挑戰。

在知識計算和推理方面，當前基於符號的推理雖然有一些很好的推理工具，但是大規模知識推理效率還很受約束。深度學習或概率的推理方法方便計算但是難以解釋。大資料環境下知識計算和推理需要研究深度學習和邏輯規則相結合的知識推理和演化方法，以提升新知識發現的能力。

知識工程的最終目標是實現知識驅動的個性化智慧服務。以知識圖譜關聯和分析用戶行為，通過情景感知分析用戶需求，以提供不同形式的個性化服務如知識導航、語義搜索和問答等。

知識工程發展趨勢可以歸納為四個方面。

四、我們的相關工作

下面首先介紹我們實驗室在ACL2017上發表論文基於實體提及表示學習的實體連結工作。實體連結是知識圖譜中的基礎研究問題。有兩個挑戰，一是文本中同一個實體會有多個提及形式，例如獨立日可以用Independence Day，也可以July First。二是同一個短語可能會對應不同的實體，獨立日有可能指電影，也可能是節日。因此，組成實體提及的詞或者短語具有多義性。

我們提出一種詞、實體提及和實體的聯合表示學習模型，學習實體提及不同語義的向量表示，實現了基於實體提及的無監督實體連結方法，取得了高精度的實體連結結果。以此為主要技術研製實現的跨語言實體連結工具XLink已經應用于我們開發的跨語言知識圖譜系統XLORE中，並提供中英文文本的實體連結服務。

另一項工作，是我們實驗室唐傑主持的從2006年就開始上線運行的科技大資料的挖掘和服務平臺AMiner。AMiner目標一是建立科技領域知識圖譜，二是對研究者進行畫像，獲取研究者興趣和研究者資訊，最終實現知識推薦等智慧服務。

Aminer在專家搜索方面利用專家結構化資訊提供精細化的搜索服務。例如輸入“美國”、“資料採擷”和“華裔女性”就能得到滿足用戶需求的結果。Aminer 還可以通過專家基本信息、研究成果等進行專家畫像，做研究者研究興趣的演化分析；可以根據使用者需求動態建立全球人才分佈地圖；可以做會議影響力分析；提供論文、研究報告評審專家推薦等。AMiner還建立了100余個專家智庫。

總結彙報內容。首先，從資料、資訊、知識到智慧概念及關係看知識工程的在機器智慧中重要性；其次，知識圖譜將互聯網資訊表達成更接近人類認知世界的形式，可以將互聯網內容從符號轉化為電腦可理解和計算的語義資訊，可以更好地理解互聯網內容；然後，知識工程從大資料中挖掘知識，可以彌合大資料機器學習底層特徵與人類認知的鴻溝；最後，構建大資料環境下由資料向知識轉化的知識引擎，是實現從互聯網資訊服務到知識服務新業態的核心技術。

關注清華-青島資料科學研究院官方微信公眾平臺，後臺回復關鍵字“知識工程”，下載完整版PPT。

整理：劉文清

通過搜索，從問題的初始狀態，結合定義的規則或表示，得到目標狀態。典型應用是博弈論和機器定理證明等。這一時期的知識表達主要有邏輯知識表示、產生式規則、語義網路等。