深度學習在NLP領域成績斐然，計算語言學家該不該驚慌？

選自Nautil

作者：Christopher D. Manning

機器之心編譯

機器翻譯、聊天機器人等自然語言處理應用正隨著深度學習技術的進展而得到更廣泛和更實際的應用，甚至會讓人認為深度學習可能就是自然語言處理的終極解決方案，但斯坦福大學電腦科學和語言學教授 Christopher D. Manning 並不這麼看，他認為深度學習確實能在自然語言處理領域有很大作為，但卻並不能取代計算語言學。

深度學習浪潮

這些年來，深度學習浪潮一直衝擊著計算語言學，而看起來 2015 年是這波浪潮全力衝擊自然語言處理（NLP）會議的一年。然而，一些專家預測其帶來的破壞最後還會更糟糕。

2015 年，除了法國里爾召開的 ICML 大會，還有另外一個幾乎同樣大的事件：2015 深度學習研討會（2015 Deep Learning Workshop）。該研討會以一個 panel 討論結束，正如 Neil Lawrence 在該 panel 上所說的：「NLP 有點（kind of）像是深度學習機器車燈前的一隻兔子，等著被壓扁。」很明顯，計算語言學界需要慎重了！它會是我的道路的終點嗎？這些壓路機般的預測來自哪裡？

2015 年 6 月，巴黎 Facebook 人工智慧實驗室開幕上，負責人 Yann LeCun 說：「深度學習的下一大步是自然語言理解，不只是給機器理解單個詞的能力，而是理解整個句子、段落的能力。」

在 2014 年 11 月的 Reddit AMA（Ask Me Anything/隨便問）問答上， Geoff Hinton 說：「我認為接下來 5 年，最令人激動的領域將會是理解文本和視頻。如果 5 年內我們還沒有在看過 YouTube 視頻後能說出發生了什麼的東西，我會感到很失望。

數年內，我們將會把深度學習安置到能夠放進耳朵那樣的晶片上，並造出像巴別魚（《銀河系漫遊指南》中出現的：如果你把一條巴別魚塞進耳朵，就能立刻理解以任何形式的語言對你說的任何事情。）那樣的英語解碼晶片。」

此外，現代深度學習的另一位泰斗 Yoshua Bengio，也逐漸增加了他們團隊在語言方面的研究，包括最近在神經機器翻譯系統上令人激動的新研究。

從左到右：Russ Salakhutdinov（卡耐基梅隆大學機器學習系副教授）、Rich Sutton（阿爾伯塔大學電腦科學教授）、Geoff Hinton（在穀歌工作的認知心理學家和電腦科學家）、Yoshua Bengio（因在人工神經網路和深度學習的工作而知名的電腦科學家）和 2016 年討論機器智慧的一個 panel 的主持人 Steve Jurvetson，機器之心當時對此論壇進行了現場報導，參閱：《獨家 | Hinton、Bengio、Sutton 等巨頭聚首多倫多：通過不同路徑實現人工智慧的下一個目標》

不只是深度學習研究者這麼認為。機器學習領軍人物 Michael Jordan 在 2014 年 9 月的 AMA 問答上被問到「如果在研究上你獲得了 10 億美元投入一個大專案，你想做什麼？」他回答說，「我會使用這 10 億美元建立一個專注于自然語言處理的 NASA 級專案，

包括所有的方面（語義、語用等）。」他繼續補充說，「我非常理性地認為 NLP 如此迷人，能讓我們專注於高度結構化的推斷問題上，在『什麼是思想』這樣的問題上直入核心，但明顯更實際。它無疑也是一種能讓世界變得更好的技術。」嗯，聽起來不錯。那麼，計算語言學研究人員應該害怕嗎？我認為，不！回到 Geoff Hinton 前面提到的巴別魚，我們要把《銀河系漫遊指南》拿出來看看，其封面上用大而友好的字寫著「不要驚慌」。

深度學習的成功

過去幾年，深度學習無疑開闢了驚人的技術進展。這裡我就不再詳介，但舉個例子說明。穀歌最近的一篇博客介紹了 Neon，也就是用於的 Google Voice 新的轉錄系統。在承認舊版的 Google Voice 語音郵件轉錄不夠智慧之後，

穀歌在博客中介紹了 Neon 的開發，這是一個能夠提供更準確轉錄的語音郵件系統，例如，「（Neon）使用一種長短期記憶深度迴圈神經網路（長舒一口氣， whew!），我們將轉錄的錯誤率降低了 49%。」我們不都在夢想開發一種新方法，能夠將之前頂級結果的錯誤率降低一半嗎？

為什麼計算語言學家不需要擔心

Michael Jordan 在 AMA 中給出了兩個理由解釋為什麼他認為深度學習不能解決 NLP 問題，「儘管現在的深度學習研究傾向於圍繞 NLP，但（1）我仍舊不相信它在 NLP 上的結果強於視覺；（2）我仍舊不相信在 NLP 的案例中強於視覺。這種方法就是將巨量資料和黑箱的學習架構結合起來」在第一個論點上， Jordan 很正確：目前，在高層語言處理問題上，深度學習還無法像語音辨識、視覺識別那樣極大降低錯誤率。儘管也有所成果，但不像降低 25% 或 50% 的錯誤率那樣驟然。而且可以很輕鬆地遇見這種情況還將持續。真正的巨大收穫可能只在信號處理任務上有可能。

語言學領域的人，NLP 領域的人，才是真正的設計者。

另一方面，第二個我。然而，對於為什麼 NLP 不需要擔憂深度學習，我確實有自己的兩個理由：(1) 對於我們領域內最聰明、在機器學習方面最具影響力的人來說 NLP 才是需要聚焦的問題領域，這很美妙； (2) 我們的領域是語言技術的領域（domain）科學；它不是關於機器學習的最佳方法——中心問題仍然是領域問題。這個領域問題不會消失。Joseph Reisinger 在其博客上寫道：「我經常在初創公司做通用機器學習，坦誠講，這是一個相當荒謬的想法。機器學習並不是毫無差別的累活，它沒有像 EC2 那樣商品化，並比編碼更接近於設計。」

從這個角度看，語言學領域的人、NLP 領域的人，才是真正的設計者。近期的 ACL 會議已經過於關注數量、關注突破頂級成果了。可稱之為 Kaggle 競賽。該領域的更多努力應該面向問題、方法以及架構。最近，我同合作者一直專注的一件事是開發普遍依存關係（Universal Dependencies）。目標是開發出通用的句法依存表徵、POS 和特徵標記集。這只是一個例子，該領域還有其他的設計努力，比如抽象含義表徵（Abstract Meaning Representation）的思路。

語言的深度學習

深度學習到底在哪些方面説明了自然語言處理？從使用分散式詞表征，即使用真實值向量表徵詞與概念來看，到目前為止，NLP 並沒有從深度學習（使用更抽象的層級表徵提升泛化能力）獲得較大的提高。所有詞之間的相似性如具有密集和多維度表徵，那麼將在但不僅限於 NLP 中十分有用。事實上，分散式表徵的重要性喚起了早期神經網路的「分散式並行處理」浪潮，而那些方法更具有更多的認知科學導向性焦點（Rumelhart 和 McClelland 1986）。這種方法不僅能更好地解釋類人的泛化，同時從工程的角度來說，使用小維度和密集型詞向量允許我們對大規模語境建模，從而大大提高語言模型。從這個角度來看，提高傳統的詞 n-gram 模型順序會造成指數級的稀疏性並似乎會在概念性上破產。

智慧需要能從知道小的部分理解整個大的事物。

我確實相信深度模型會很有用的。在深度表徵中發生的共用在理論上可以給出指數級的表徵優勢，並在實際上提升學習系統的性能。構建深度學習系統的一般方法是優秀而強大的：在端到端學習框架中，研究人員定義了模型的架構和最好的損失函數（loss function），然後對模型的參數和表徵進行自組織學習以最小化該損失。我們接下來會瞭解最近所研究的深度學習系統：神經機器翻譯（neural machine translation/Sutskever, Vinyals, and Le 2014; Luong et al 2015）。

最後，我一直主張更多地關注模型的語義合成性，特別是語言和一般人工智慧方面上。智慧需要能從知道小的部分理解整個大的事物。尤其是語言，理解小說和複雜句子的關鍵在於能否從較小的部分（單詞和短語）構建整體的意義。

最近，許多論文展示了如何從由「深度學習」方法的分散式詞表征來提升系統性能的方法，如 word2vec (Mikolov et al. 2013) 或 GloVe (Pennington, Socher, and Manning 2014)。然而，這並不是構建深度學習模型，我也希望未來有更多的人關注強語言學的問題，即我們能否在深度學習系統上構建語義合成功能。

連接計算語言學和深度學習的科學問題

我不鼓勵人們為了使用詞向量來增長一點性能而努力研究，我建議我們可以回到一些有趣的語言學和認知性問題上，這些問題將促進非分類表徵和神經網路方法的發展。

自然語言中非分類現象的一個例子是動名詞 V-ing 形式（如 driving）的 POS。這種形式在動詞形式和名詞性動名詞之間的經典描述是具有歧義的。事實上，真實情況是更複雜的，因為 V-ing 形式能出現在 Chomsky (1970) 的四種核心類別中：

更有趣的是，有證據表明其不僅有歧義，同時還混合了名詞-動詞的狀態。例如，作為名詞的經典語言學文本和限定詞一同出現，而作為動詞的經典語言學文本採用的是直接物件。然而，眾所周知動名詞名詞化可以同時做到這兩件事情：

1. The not observing this rule is that which the world has blamed in our satorist. (Dryden, Essay Dramatick Poesy, 1684, page 310)

2. The only mental provision she was making for the evening of life, was the collecting and transcribing all the riddles of every sort that she could meet with. (Jane Austen, Emma, 1816)

3. The difficulty is in the getting the gold into Erewhon. (Sam Butler, Erewhon Revisited， 1902)

這通常是在短語結構樹狀圖的層次中通過某種類別的變更操作進行分析，但有證據表明，這個其實是語言中非分類行為的一種情況。

確實，這個解釋早期用於 Ross (1972) 的「squish」案例。歷時的（Diachronically），V-ing 形式表現出動詞化的增長歷史，但在許多時期，它表現出非常離散的狀態。如我們在這個領域找到的明確評估判斷：

4. Tom's winning the election was a big upset.

5. This teasing John all the time has got to stop.

6. There is no marking exams on Fridays.

7. The cessation hostilities was unexpected.

限定詞和動詞物件的眾多組合聽起來並不是很好，但還是比通過派生詞素（如-ation）名詞化對象好多了。Houston (1985, page 320) 表明，V-ing 形式到離散詞性分類的分配要比連續型解釋在-ing 和-in 的語言交替性差得多（預測意義上）。他還認為「語法類別存在於一個連續統一體，它們在類別之間沒有明確的邊界。」

我的一個研究生同學 Whitney Tabor 探討了一個不同而有趣的案例。Tabor (1994) 研究了 kind of 和 sort of 用法的不同，我在 1999 年的教科書（Manning and Schutze 1999）介紹性章節中使用了該案例。名詞 kind 或 sort 能構成名詞性短語，或者作為副詞性修飾語的限制：

8. [That kind [of knife]] isn't used much.

9. We are [kind of] hungry.

有趣的是，歧義性形式存在重新分析的路徑，如下面的語料對，它們展示了一種形式是如何從另一種形式出現的。

10. [a [kind [of dense rock]]]

11. [a [[kind of] dense] rock]

Tabor (1994) 討論了古典英語為什麼存在 kind，但極少或根本沒有 kind of 的用法。從中世紀英語開始，為再分析提供生長地的歧義語境開始出現（案例 (13) 中的是 1570 年的語句），隨後的非歧義案例限制性修飾語出現了（案例（14）是 1830 年的語句）：

12. A nette sent in to the see, and of alle kind of fishis gedrynge (Wyclif,1382)

13. Their finest and best, is a kind of course red cloth (True Report,1570)

14. I was kind of provoked at the way you came up (Mass. Spy,1830)

這是一段沒有同步性（synchrony）的歷史。

讀者們，你們留意到了我在第一段中引用的那個例子嗎？

15. NLP is kind of like a rabbit in the headlights of the deep learning machine (Neil Lawrence, DL workshop panel, 2015)

Whitney Tabor 使用一個小型的深度迴圈神經網路（具有兩個隱藏層）對這個演化過程進行了建模。他在 1994 年利用與斯坦福的 Dave Rumelhart 一起工作的機會完成了該項研究。

就在最近，開始有一些新的研究工作旨在駕馭用於建模和解釋語言差異與變化的分散式表徵的力量。事實上，Sagi, Kaufmann, and Clark (2011) 使用了更加傳統的研究方法——潛在語義分析（Latent Semantic Analysis）來生成分散式語詞表徵，展現分散式表徵如何能捕捉到某個語義變化：隨著時間的推移，被指稱的物件範圍的擴大和縮小。比如，在古英語（Old English）中，deer 是指任一動物，但在中世紀以及現代英語中，這個單詞被用來清楚指稱某科動物。dog 和 hound 的意思調了個個兒：在中世紀英語中，hound 被用來指稱任何一種犬科動物，但是現在卻被用來指稱某特定子類，dog 的使用情況正好相反。

現在 NLP 對於機器學習和產業應用問題是如此關鍵，生活在這樣一個時代我們應該感到興奮和高興。

圖 1：cell 與四個其它單詞的余弦相似度隨時間變化而變化（其中 1.0 表示最大相似度，0.0 表示無相似度）。

Kulkarni et al. (2015) 使用神經詞嵌入（neural word embeddings）建模詞義的轉變，例如，過去一個世紀來 gay 的含義的轉變（根據 Google Books Ngrams 語料庫）。在一個最近的 ACL 研討會上，Kim et al. (2014) 採用了一個相似方法——使用 word2vec——查看詞義的最近變化。例如，圖 1 中，2000 年左右他們表明 cell 的詞義如何從接近於 closet 和 dungeon 迅速改變為接近於 phone 和 cordless。在這一語境中一個詞的含義是超出詞的所有含義的平均值，並通過使用頻率加權。

分散式表徵的科學應用越來越多，利用深度學習為語言現象建模，是神經網路之前興起的兩大特點。後來，由於網路上引用和確定深度學習研究工作上有些混亂，我認為有兩個幾乎不再被提及的人：Dave Rumelhart 和 Jay McClelland。從聖地牙哥的並行分散式處理研究小組開始，他們的研究專案就旨在從更加科學和認知的角度研究神經網路。

利用神經網路來解決規則統領下的語言行為（rule-governed linguistic behavior）問題是否妥當？現在，研究人員對此提出了一些好的質疑。資歷老一些的研究人員應該還記得，多年前有關這一問題的論戰讓 Steve Pinker 聲名鵲起，也奠定了他六位研究生職業生涯的基石。篇幅有限，我就不在這裡展開了。但是，從結果上來看，我認為那一場爭論富有成效。爭論過後，Paul Smolensky 進行了大量研究工作，研究基礎分類系統如何出現，以及如何在一個神經基質中表徵出來（Smolensky and Legendre 2006）。實際上，人們認為 Paul Smolensky 在兔子洞裡陷得太深，他將大部分精力投入到研究一種新的音系分類模型——最優化理論（Optimality Theory）（(Prince and Smolensky 2004）中。很多早期的科研工作被忽略掉了。在自然語言處理領域，回過頭來強調語言的認知和科學調查重要性，而不是幾乎完全使用研究工程模型，這是有好處的。

總而言之，我認為我們應該為生活在自然語言處理被視為機器學習和工業應用問題核心的時代而感到激動。我們的未來是光明的，但每個人都應該更多地思考問題、架構、認知科學和人類語言的細節。我們需要探討語言是如何學習、處理，又是如何產生變化的，而不是一次次在基準測試中衝擊業內最佳。

儘管也有所成果，但不像降低 25% 或 50% 的錯誤率那樣驟然。而且可以很輕鬆地遇見這種情況還將持續。真正的巨大收穫可能只在信號處理任務上有可能。