EmTech現場｜自然語言大神Dan Roth：AI崛起在於利用非結構化資料

在今天的《麻省理工科技評論》新興科技峰會EmTech China上，自然語言處理頂級專家、賓夕法尼亞大學教授Dan Roth 發表了關於自然語言處理未來趨勢的精彩演講，以下為演講全文：

圖 | Emtech China 峰會現場

當我們連接wifi的時候，或者當你在下載的時候，會出現一個提示框詢問你是否接受使用者協議。這是一份很長的文本，那麼你要接受嗎？要認同嗎？可能你會回答，對，我要接受，哪怕這個時候，可能你還沒有讀完這份長長的文本。但是這個文本中會涉及很多問題，比如，它會如何利用我的個人資訊？不會侵害我的隱私？我們需要瞭解這些知識，這個文本能不能讓使用者清楚瞭解這些相關的保密內容呢？我們現在還沒有一種穩定的方法可以去瞭解整個文本的內容，這就是我們現在遇到的問題。

這個問題不僅是一個科學上的問題。這些文本關乎我們個人資訊的安全性，

這是每個人都要面對的問題。

我們接觸到的絕大多數資料是非結構性的。從科學領域，再到醫學、教學、商業、互聯網等等，包括我們的郵件都是非結構性資料。這背後的挑戰就是，我們如何去瞭解這些資料的結構，我們如何建立一個系統，可以去分析、利用它們，瞭解其背後的意義。這就是自然語言處理領域近期，尤其是近幾年的一個重要任務。

今天，我來給家解釋一下，為什麼非結構性的資料處理這麼難？我們要採取什麼樣的措施？

我們從一個簡單的故事開始。這是美國二年級學生的一道閱讀測試題，有三個名字：Kris Robin、Kiris和Ms. Robin，大家覺得他們是同一個人的名字嗎？我想大多數人都覺得不是。為什麼不是呢？因為通過閱讀理解，大家會覺得其中有一個可能是父親。

雖然這篇文章中沒有明確指出這一點，但是大家可以推斷出來。這樣一道題，有人做對，有人做錯，有人可能做的很快，有人則可能會慢一點。那麼我們如何説明電腦快速地做出選擇呢？

其實，這個故事中是有很多陷阱的，有的人會被誤導。文章中往往有很多的邏輯詞，有很多時間節點，比如說三年前五年前，還有一些定性和定量的詞語，讓我們可以分析和梳理人物之間的關係。哪怕是一個很簡單的問題，我們也需要通過邏輯來梳理。這樣閱讀完一篇簡單的文章，我們可以去做一個決定。

圖 | Dan Roth 在演講

對電腦而言，這是一個比較複雜的問題。為什麼呢？因為這背後有兩層邏輯。表層語言層和底層意義層。語言層具有模糊性，因此可能會產生歧義，所以我們需要去瞭解它的背景，推測它的言外之意來消除這樣的歧義。除此之外，語言層還具有多樣性。我們想要表達的每一點，都可以通過不同的方式表達出來。這兩個特點就使得語意理解非常困難。

再給大家舉一個例子，這裡有三篇文本，都提到了芝加哥。我來自芝加哥。我這麼說，它可能沒有別的意思。但如果我提到芝加哥樂隊，或者芝加哥的足球隊，或者提到與它相關的專輯。有的文本中甚至不會直接出現芝加哥，但是這些不同的意義點都可以幫我們表達出芝加哥。

傳統的程式設計能力暫時沒辦法説明我們解決語言的模糊性問題。所以我們就要利用最新的機器學習去減少文本中的模糊性，去連接語言中的邏輯，去解讀背景知識，去識別不同的詞彙之間，以最終地消解這種模糊性。

圖 | Dan Roth 在演講

機器學習是解決語言中模糊性和多樣性一個必要的工具，在過去幾年我們也看到了這個領域的發展。我們有不同分類方法來解決文本分類問題，他們依據不同的規則，使用不同的方法。比如我們會通過打上一個標籤對文本進行標記，在標記的過程中對檔進行分類。比如可以通過病例來判斷一個患者是否可以複診，這是一種宏觀的分類方法

人工智慧能夠幫助我們進行分類，在過去的幾年它也取得了長足的發展。這其中不僅有機器學習發展的功勞，還有其他的技術，包括計算能力的發展和儲存成本的下降，都促進了機器學習領域的發展，還有新的分類方法的誕生。

大家如果關注這個領域，就會發現現在機器學習分類還不是非常的有效。如果把這些方法比喻成一個魔盒的話，我們要瞭解這個魔盒中需要什麼樣的工具和內容。我想強調的就是，我們不僅需要找到方法，更應該瞭解推理的方法，包括瞭解原因、假設結果和測試方法。因為推理應該是分類之上的邏輯，讓同樣的類別在一起進行集成。我們要清楚，一個點是否能推到下一個點，這樣才能更好的解決問題、回答問題和進行優化。

圖 | Dan Roth 在演講

自然語言處理現在有很多應用。比如，一個律所需要獲得所有人的名字，這些人名都包含在郵件中，有不同的分析郵件的方法，我們該如何確定這些人的名單呢？再比如，一個政界人士要研究氣候變化方面的問題，他也找到了很多相關的文本，但是該如何全面的梳理，得到大事件的時間表呢？包括教學系統，是否能夠説明我們初中學生更好的解決幾何和數學問題？再比如比傳統病歷包含更多資訊的電子病歷我們又該如何利用呢？

我們還沒有真正完全解決這些問題，還有許多其他挑戰，包括推理，適應性訓練，因為現在的模型大多不具有普適性。以及最大的挑戰是——監督。

那什麼是監督？就是神經網路的監督。我們賦予神經網路一個任務，去類比它，然後收集資料，設置一個模型。但現在我們發現我們的資料不夠，沒有辦法去訓練所有的模型，我們也不太清楚，什麼是稱為全部的任務。那這種方法就無法升級和進行普適性的應用，它更大程度上是只是一種偶然性的訓練。

我們也發現很多的零散信號，我們如何收集這些零散的信號，進行訓練模型？傳統的文本分類，需要用很多標誌性檔去訓練一個經典的模型。所以，我們一般要收集一些關鍵的資料進行標記、進行分類。現在我們考慮的是如何不利用標記的資料，就可以進行快速地分類。但是現在我們不再需要標記資料了，因為我們有對標籤的最直接的瞭解。我們可以直接利用話題、文本進行標記性的重現，以實現對話題的理解。

我還有一個例子，我很喜歡喝咖啡，我想告訴一個機器人這個資訊，我就要和它溝通，為它提供一個資訊，我要告訴它，我需要什麼樣的咖啡，讓它去瞭解我的喜好。標準的機器學習的方法，就是為了提供一個有隱喻的文本和很多意義的標記，這樣做的成本非常地高昂。換句話說我們要像一個老師一樣，通過深入的溝通，為機器人提供資訊。這種方法是不可以進行複製的。

現在我們在想為它提供一些非直接性的信號，去訓練這個機器人。把這樣的資訊傳遞出去，再看一下機器人能做什麼事情。如果它按照我的方法和指示做這個咖啡，說明我們的資訊傳遞是非常清晰的，相反說明我們給的是一個不太好的例子。

因此我們現在的挑戰就是能不能依賴於這種描述語言，實現資訊的傳達。我不會告訴你們怎麼做，但是我覺得這樣一種方式，能夠説明我們進行下一級的技術革命，而且能夠實現一些複雜任務的完成。

總結來看，今天的自然語言處理依然是一個具有挑戰性的領域。機器學習和推理等都是科學工程以及商業進展的核心。儘管還有許多的問題有待解決，但是現在這個領域的現狀已經能夠幫助我們帶來一定的商業成功了。

謝謝！

圖 | Emtech china 會議現場

圖 | Dan Roth 在演講

我們還沒有真正完全解決這些問題，還有許多其他挑戰，包括推理，適應性訓練，因為現在的模型大多不具有普適性。以及最大的挑戰是——監督。

謝謝！

圖 | Emtech china 會議現場