GAITC演講實錄丨李航：人工智慧的未來——記憶、知識與語言

分類＼科技
時間＼2017-05-24

2017全球人工智慧技術大會

2017年5月21日

國家會議中心4層大會堂B

本文根據速記進行整理

人工智慧的未來——記憶、知識與語言

李航

華為技術有限公司諾亞方舟實驗室主任

各位專家、同仁大家好，

非常高興有機會和大家交流。今天的報告中我想從記憶、知識、語言的角度展望一下人工智慧技術的未來發展趨勢。我的報告分幾部分，首先我們一起看一下記憶和智慧的關係。

我從一個悲劇故事開始講起，主人公叫Clive Wearing，今年78歲，英國的音樂家，

30多年前不幸患上了病毒性腦炎，留下了後遺症--失憶症。是什麼症狀呢？他表面看上去沒有什麼問題，可以說話，吃飯、穿衣服、騎自行車，甚至彈鋼琴。但是，他得病之前的20年內的所有記憶全部喪失，對之後發生的事情也不能進行記憶。他已經不認識自己的女兒，但是能認識自己的夫人。大腦只有瞬間到瞬間的意識。下面給大家看一個視頻。

視頻的片頭說Clive Wearing用自己悲慘的命運給我們展示了意識和記憶對我們生命的重要性。

Clive Wearing基本上只有2分鐘左右的記憶，所以每次他看到太太都非常興奮，像久違的親人一樣，和她擁抱接吻。每天可能多次重複做這樣的事情，因為他不記得當天曾經見過太太。這是人腦的示意圖，有大腦、小腦、腦幹、邊緣系統，邊緣系統裡有一個重要的器官，就是海馬體Hippocampus。Clive Wearing的海馬體受到了損傷。人的腦部從功能的角度看有這麼幾個模組，

寄存器，短期記憶，長期記憶，中央控制模組。人腦通過五種感測器，視覺、觸覺等，從外部接受資訊，存在寄存器，如果我們的注意力關注這些資訊，可以把這些資訊變成短期記憶裡的內容，短期記憶可以持續30秒左右，如果我們有意識要記住這些內容的話，大腦又會將短期記憶的內容轉到長期記憶中。長期記憶裡，我們可以把資訊長期存儲，需要的時候把它檢索出來。

海馬體做的事情，正是説明我們把內容從短期記憶轉寫到長期記憶，同時幫助我們檢索長期記憶裡存儲的內容的工作，所以海馬體是非常重要的器官。從電腦的角度來看，短期記憶對應著記憶體，長期記憶對應著硬碟，對我們人來說，長期記憶是非常重要的部位。

我們看一下長期記憶的特點，人在記憶資訊和知識的時候，有一個重要的特點，就是在長期記憶裡不斷增加新的內容，

把新加的內容和已有的內容聯繫在一起，這是非常重要的。比如今天我在會場上看到很多熟人，一見面，就能把和每個人過去的交往，相關的資訊回想聯繫起來，而且我會記住，今天在人工智慧大會上又見了面，變成了新的記憶。所以記憶有一個非常重要的特點，就是能把新的內容和已有的內容聯繫起來。我們存儲的是知識和資訊，不是簡單的資料，一會兒談到這幾個概念的關係，事實上知識和資訊是更抽象的東西。比如說我們有一個機器，有一個攝象頭，能夠把外界的場景拍攝下來，用視頻記錄下來，但它記錄的只是資料，不是資訊和知識，不能像人的長期記憶裡存儲的東西那樣，把相關的概念聯繫在一起。

說到人工智慧，人工智慧系統現在有很多成功的例子，今天幾位老師的報告裡談到，AlphaGo，自動駕駛，等等，但這些人工智慧系統都在重複使用給定的模型，要麼是在迴圈中使用，要麼是在有限狀態間的跳轉中使用。這些模型一般通過機器學習得到，我們看到當前所有的人工智慧系統基本上都擁有這個特點。這樣的人工智慧系統，如果我們假設它有意識，就跟我們看到的英國音樂家一樣，沒有長期記憶，只有瞬間記憶，瞬間做一個處理和判斷，然後重複地做同樣的事情。就像Clive Wearing一樣，每次都會重複做同樣的事情。今天上午一些老師提到意識，意識是一個哲學的概念，也是當今腦科學，人工智慧研究中的重要課題，這個討論起來要花很多時間，我們今天不細談。其實不同的人對意識給出不同的定義。日裔美國物理學家Michio Kaku給意識下了這樣一個定義，他指出了意識的一個重要特點。假設你有一個系統，這個系統跟環境做交互，如果在這個交互過程當中，這個系統的內部狀態發生了變化，就認為這個系統是擁有意識的，從這種意義上來說，溫度計是有意識的，向日葵也是有意識的，因為這些系統在與外界交互的過程當中內部的狀態發生了變化。他說溫度計的意識是1個單位的意識，花的意識是10個單位的意識。如果按照他的定義，人工智慧系統現在也都有意識了，都是能在跟外界的交互過程中改變自己內部的狀態。另一方面，回到剛才的概念，這些系統都是沒有長期記憶的，沒有長期記憶就不能不斷積累知識和資訊，不斷跟人去做更好的交互。讓我們來說，人工智慧系統，假設現在有了意識，未來的發展，下一個階段應該是擁有長期記憶。今天上午大家談到機器人，強人工智慧。強人工智慧在我看來還是非常遙遠的，比如說機器人談戀愛，機器人反抗人類。剛才說到電腦有意識，未來可能有長期記憶，在此基礎上，需要有自我意識（自我意識又是另外一個概念），需要有情感，需要有自由意志等等，才能夠展示出像人一樣的智慧性行為。所以強人工智慧的路程還是非常遙遠的。但是我們預測，人工智慧發展的下一個階段，應該是擁有長期記憶的智慧系統。

剛才也看到資訊和知識，長期記憶只是載體，或者說是硬體，它的軟體就是資訊和知識，大家都知道有這樣一個分類，資料，資訊，知識，智慧，金字塔關係，從下往上會更加抽象，上一層是下一層的昇華。其實資訊和知識，作為概念是沒有嚴格定義的，雖然我們經常用，這些重要的概念和其他的重要概念一樣，其實都沒有嚴格的定義。資訊的主要特點，大家都知道，就是關於事物的基本事實。知識更抽象一些，表示對事物的理解。大家也許知道，西方哲學中圍繞著知識的定義討論了兩千多年。兩千多年前，伯拉圖給知識下了個定義，就是著名的JTB（Justified True Belief），被驗證的真實的信念，他認為這個就是知識，所以知識沒有嚴格的定義，資訊和知識之間的邊界也不是很清楚。但是有一個事實應該很清楚，那就是我們每個人得到的資訊和知識，大部分都是通過學習得到的，大部分是在學校，在工作中，通過學習從他人那裡得到的。我們知道高溫可以消毒，這個事實在人類歷史上可能曾被一些人發現過，但是直到19世紀，巴斯德發現了這個現象，把它當作知識轉播給大家，才得以廣泛普及。大家現在都有這個知識，但是如果讓我們每個人在自己的生活中自己發現這樣的知識，還是比較困難的。我們的大量的知識資訊都是通過和外界的交互得到的。

展望未來，希望有這樣的智慧系統，能夠説明我們智慧地管理資訊和知識，成為我們的得力助手。這個概念也不是全新的，我們從已有的系統中也能看到它的雛形，這裡我想從我，們的角度重新做一整理。我們希望有這樣的智慧系統，它有語言處理模組，中央處理模組，短期記憶，長期記憶，它能夠“閱讀”大量結構化和非結構化的資料，非結構化資料包括文本，網頁，結構化資料包括知識庫、資料庫。它能看到大量的問答的例子，關於知識相關的問答的例子。在學習過程當中，它能夠自動的去處理大量的資料，產生資訊和知識，然後把這些東西放到長期記憶裡去，同時能夠學習語言“理解”，能夠進行知識問答。在實際使用中，如果用戶有什麼問題，可以通過自然語言的形式問這個系統，系統能夠自動回答。這個系統能夠自己去不斷積累資訊和知識，當使用者用自然語言問這個系統問題的時候，系統能夠準確地回答問題，把知識和資訊提供給使用者。理想情況，我們把這個系統幾乎是全自動地，端到端地構建起來。現實中我們都在使用搜尋引擎，你可以認為搜尋引擎就是這裡介紹的理想的智慧資訊知識管理系統的簡單實現，或者現實中的近似，未來它將變得越來越加智慧化。從另一個角度來看，電腦最強大的能力就是計算能力和存儲能力，我們已把電腦的計算能力用到了極致，但是，電腦的存儲能力我們還沒有用到極致，一般自動存儲的只是資料，不能把內容聯繫起來，變成資訊和知識。我們希望未來能把從外界得到的資料，做加工處理，變成資訊和知識，能夠對用戶提供更好的知識問答服務，能夠更好的發揮電腦的存儲能力。

下面再看一下，未來實現這樣的理想有哪些挑戰，首先看知識和語言，特別是知識處理和語言處理時的挑戰，下面我將把資訊省略，提到知識一般包含資訊。人的知識有一個重要的特點，就是它是非常模糊的，語言有多義性和同義性。我們先看知識的模糊性，不確定性，這個例子是斯坦福大學Terry Winograd教授給出的，大家一般認為我們的知識都是定義得很清楚的，其實不然，我們的知識其實都是模糊的，英文的概念Bachelor，是未婚成年男子的意思。我們一般以為這個概念是很清楚的，但是在生活中我們會遇到一些例子，不好判斷，大家並不一定有共識，如果做一個調查，讓在座的各位判斷具體的情況，大家可能觀點不一樣，比如說未婚的父親，沒有結婚但是已經成為父親的人，這樣的人是不是單身？還有假結婚的人，這樣的人是不是單身？還有其他的一些例子。每一個概念都有一些典型的情況，大家都知道最典型的單身是什麼樣的，但是也有很多邊界模糊的情況。我們知識中的所有概念，都擁有這樣的特性。

其實語言也有類似的問題，屬於同樣的認知原理產生的不同現象。語言處理時我們會發現語言的多義性和同義性。首先看語言有多義性，這是加州大學伯克利分校Charles Fillmore教授給的例子，英文的單詞Climb（爬），它的語義是有多個的，基本的語義是沿著一個路徑用四肢的力量從低處往高處移動，如果你用它造句，典型的例子是“男孩在爬樹”，但是它有延伸，比如說“飛機爬到了3萬英尺”，也有比喻“物價每天都在向上爬”，甚至可以說“他從睡袋裡爬出來”。相當於有一個核心的Climb的語義，從這個核心的語義出發產生不同的語義，形成一個網路結構，從中心往四周延伸。如果任意拿兩個例子相比較，可能發現兩個Climb的意思相當不一樣，雖然是一個單詞的不同的語義，但看上去相差挺多的。所有的自然語言的單詞都擁有這樣的特性，是一個普遍的現象。

其次，語言還有同義性，同一個意思一般有多種不同的方式表達，這也是語言另外一個特點。自然語言處理，實現智慧資訊知識管理系統，必然會遇到這個挑戰。這裡展示的例子是“distance between sun and earth”（太陽和地球的距離）的不同說法，比如“how far is sun from earth”，等等，是從一個搜尋引擎的日誌中獲取的。我們可以看到，同一個意思真的有許多不同的說法。

我們認為神經處理與符號處理的結合是自然語言處理，特別是實現智慧資訊知識管理系統的強有力手段。我們稱之為神經符號處理（Neural Symbolic Processing）。首先，語言有不確定性（多義性、同義性），現在的神經網路，深度學習給我們提供了很好的工具來表示語義，我們可以用神經表示來應對語言的不確定性。同時，神經表示對噪音也有非常好的抵抗能力。但是另一方面，語言本身是由符號構成的，我們使用語言實際上是使用符號，用符號表示語言的語義很容易理解，也容易處理，電腦做的本質都是在符號上的操作，所以語言處理的過程中，用符號表示語義，有天然的優勢和有實際的需要，結合起來，兩種不同的表示都會變得非常重要，實現我們說的神經符號處理。這應該是自然語言處理的技術發展趨勢。

剛才說的智慧資訊知識處理系統，有幾個模組，語言處理模組，短期記憶，長期記憶，中央處理模組，在長期記憶裡，存儲大量的知識和資訊，但是這些知識和資訊由兩種不同的表示方法表示，一個是符號表示，如資料庫的表示，另一個是神經表示。通過深度學習、神經網路的技術，可以得到知識的神經表示，通過傳統的符號處理可以得到知識的符號表示。兩者結合起來，可以構建長期記憶。如果使用者提出一個問題，語言處理模組有一個編碼器，它把這個問題轉化成為問題的表示，放到短期記憶裡，有符號表示和神經表示，假設做一個很好的檢索，從長期記憶得到相關的答案，得到答案以後，同樣在短期記憶裡也有符號表示和神經表示，之後再通過語言處理模組中的解碼器，把答案變成自然語言，就是問題的答案。這就是我們要構建的系統。雖然在自然語言處理的領域，大家都在往這方向走，但是還有很多挑戰。

我們看一下相關的工作，比較有名的工作。大家知道CMU開發了一個叫NELL（Never Ending Language Learning）的系統，人先定義一個知識庫的框架，提供一些知識，一些例子，然後讓系統在互聯網裡自動找到新的知識，比如北京是中國的首都是例子，以此為基礎，找到華盛頓是美國的首都等等。NELL系統在網上不斷發掘新的知識，加到知識庫裡，並且不斷提高知識抽取的精度與速度，這是NELL要做的事情。我們希望智慧資訊知識管理系統也能夠自動地從外界獲取資訊，問題的關鍵是如何把資料轉換成系統內部的表示，即有意義的知識表示和資訊表示，放到長期記憶裡。

大家知道，Facebook提出了Memory Networks系統，可以做一些簡單的問答，首先給系統提供一些用自然語言描述的事實，如John在遊樂場，John撿起了球。然後問系統，球在什麼地方？系統做回答。Memory Networks是一個完全是通過神經網路構建的系統，可以進行端到端的學習，其主要特點是有長期記憶，能將事實記錄下來。雖然準確率不是很高，但是一個非常有意思的工作。

大家知道穀歌的系統，DNC（Differentiable Neural Computer）系統，和我剛才說的想法一樣，它也是有長期記憶的，我剛才強調的更多的是自然語言，希望長期記憶裡既有神經表示也有符號表示，這個DNC有的只是神經表示，長期記憶上存儲的實際上是一些向量，整個長期記憶是一個大的矩陣，神經網路控制長期記憶的訪問，用資料驅動的方法學習神經網路，有三種不同訪問長期記憶的方式，把這裡面的知識和資訊有效的使用起來，比如說在倫敦的地鐵裡找到最短路徑。DNC還有一個特點，就是神經網路實際在模仿哺乳動物海馬體的機制。

下面簡單介紹華為諾亞方舟實驗室做的工作，這部分屬於基礎研究工作，我們嘗試的是，利用深度學習完全自動地構建智慧的資訊知識問答系統，能自動問答使用者的問題。重點聚焦在問答部分，知識獲取的部分比較簡單。我們現在介紹兩個工作，一個是利用知識圖譜的知識回答問題，知識圖譜中的知識由三元組表示，比如姚明身高多少。訓練資料是問答句對，以及與知識圖譜的聯繫。比如，問句是“姚明身高是多少？”，答句是“姚明身高是多少？”，答句的知識與知識圖譜的知識聯繫在一起。假設有大量的資料，我們希望自動構建一個神經網路，它能夠做準確地回答問題。這個系統叫GenQA，它是遵循神經符號處理的基本想法構建的，有語言處理模組，包含編碼器與解碼器，短期記憶，長期記憶。在長期記憶裡，我們把所有的知識庫裡的三元組用兩種形式表示，三元組的每一個單詞都是一個符號，整體構成符號表示；三元組的每個單詞還有一個附屬的向量，整體構成神經表示；對所有符號也做了索引。編碼器收到一個問題的時候，把它編碼，產生內部表示，原始的問題轉換成短期記憶中的問題表示，包含了符號表示和神經標號，然後我們去檢索匹配長期記憶裡的知識庫，在裡面找到相關的答案。編碼器理解問題的時候，同時產生問題的表示，解碼器把編碼器提出的問題和答案結合起來，產生答案，所有的模組都和神經網路聯繫起來，能夠進行端到端的訓練。準確率在55%左右，不是特別高，但是能夠全自動的回答問題。

另外一個相關的工作也是知識問答，剛才看到的是從知識庫的問答，現在換一個假設，認為是從資料庫的問答。這個例子是奧林匹克運動會的資料庫，假設也有大量的問答的問句答句作為訓練資料，希望有一個神經網路能夠説明我們把關聯式資料庫裡的資訊檢索出來，回答使用者提出的自然語言的問題。我們提出了一個新的神經網路的模型，也是端到端的學習，基本思想類似，有語言處理模組，短期記憶、長期記憶，語言處理模組有編碼器把問題轉換成內部的表示，然後去匹配長期記憶裡的資料庫的表示，這個資料庫也是既有符號表示，又有神經表示的。訪問資料庫的時候，資料庫本身有複雜的結構，自然語言的問句也是複雜的結構，所以需要複雜的匹配，具體的模型細節我不講了，通過複雜的匹配關係，五個子神經網路，準確率非常高，達到90%多，比現在業界的標杆，自然語言語義分析的方法精度更好。語義分析的方法，需要很多人工知識的導入，花很多精力才能構建起來，我們用神經網路，深度學習的技術可以做端到端的學習，把整個系統自動的構建起來。

下面大家看一下這個視頻，我們開發這個系統已經有幾年了，小諾機器人，裡面有很多技術，包括我們在業界第一個提出的生成式的自然語言對話技術。也包含了剛才介紹的技術，比如你問“《三國演義》是誰寫的”，系統就會找到答案，生成回答。這個不是通過搜索得到的回答，而是在資料庫裡找到答案，自動生成的回答。

總結一下，今天和大家一起展望了人工智慧未來的發展方向，希望未來，快的話十年內，人工智慧系統能給我們帶來全新的更好的體驗，即智慧知識資訊管理服務，這是令人期待的。相信神經符號處理將成為實現這個應用的重要技術。人類智慧的很重要的特點是擁有長期記憶，現在的人工智慧系統還沒有長期記憶，只有瞬間的意識，需要發展到擁有長期記憶的階段。我們認為這是未來的發展方向，如果能夠像人一樣擁有長期記憶，我們就能夠實現智慧的資訊知識管理系統，它能不斷獲取新的資訊和知識，能夠回答我們各種各樣的問題，能夠成為人類的真正的智慧助手，真正發揮電腦的強大存儲能力。我們現在看到，業界包括我們實驗室都在嘗試著相關的基礎研究，希望有所突破，有很多有意思的，有挑戰性的問題。

今天我分享了對人工智慧未來發展方向的看法，希望起到抛磚引玉的作用。謝謝大家。

CAAI原創丨作者李航

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智慧學會

交叉、融合、相生、共贏

事實上知識和資訊是更抽象的東西。比如說我們有一個機器，有一個攝象頭，能夠把外界的場景拍攝下來，用視頻記錄下來，但它記錄的只是資料，不是資訊和知識，不能像人的長期記憶裡存儲的東西那樣，把相關的概念聯繫在一起。