AI在閱讀理解領域開始“跑分”，這個“人類好幫手”還能去哪炫技

【摘要】近日，在美國斯坦福大學發起機器閱讀理解領域頂級賽事SQuAD中，阿裡巴巴開發的人工智慧模型獲得了82.44的高分，超過了人類平均值82.304的分數。這是機器首次在此類測試中獲得超過人類的分數，而微軟的AI模型獲得了82.650的分數，排名首位。

編者按：近日，在美國斯坦福大學發起機器閱讀理解領域頂級賽事SQuAD中，阿裡巴巴開發的人工智慧模型獲得了82.44的高分，超過了人類平均值82.304的分數。這是機器首次在此類測試中獲得超過人類的分數，而微軟的AI模型獲得了82.650的分數，排名首位。

“三長一短選最短, 三短一長選最長,參差不齊C無敵。 ”

還記得上學期間流傳在“學渣們”之間的所謂閱讀理解的“做題法寶”嗎？

當然，這只是學渣們給自己的心理安慰。閱讀理解作為一道考察學生理解能力、思辨能力的題型，絕不僅僅是一道口訣就能解決的，它需要大量的練習與不斷地揣摩。

不管如何，相信大家都有一個共識：閱讀理解這件事當然是人類的專項。

然而事實上，近日，在美國斯坦福大學發起機器閱讀理解領域頂級賽事SQuAD中，阿裡巴巴開發的人工智慧模型獲得了82.44的高分，超過了人類平均值82.304的分數。這是機器首次在此類測試中獲得超過人類的分數，而微軟的AI模型獲得了82.650的分數，排名首位。

智慧體在閱讀理解領域開始“跑分”， AI能夠進行全文理解，已然成為了AI界的大事件。此時，我們首先要面對的問題就是，當AI已經能夠比人類更快速、更精准地對文本中的資訊進行回答時， AI究竟是人類的替代者還是幫助者呢？AI閱讀理解在未來又會如何落地呢？這些問題看似簡單，卻有很多值得討論的地方。

AI閱讀理解技術之思

整體來說，智慧相對論認為至少可以從這兩點思考。

1、AI閱讀理解只是自然語言處理（NLP）的進化

雖說AI閱讀理解近期才進入人們的視線，但AI閱讀理解技術究其根本還是繼語義分析、語音辨識後的又一在自然語言處理技術中取得的突破。

（圖來自億歐網）

自然語言處理發展得很早，電腦剛剛發明之後，人們就開始了自然語言處理的研究。機器翻譯是其中最早進行的NLP研究。那時的NLP研究都是基於規則的，或者基於專家知識的。而閱讀理解技術是怎麼發展而來的呢？在圖像識別和語音辨識領域的成果激勵下，人們逐漸開始引入深度學習來做NLP研究，於是閱讀理解技術應運而生。

這類技術也面臨很多挑戰。具體來講，包括：如何跟知識學習——有效地把知識包括語言學知識、領域知識用起來；

如何跟環境學習——通過強化學習的方式提升系統的性能；

如何跟上下文學習——利用上下文進一步增強對當前句子的處理能力；

如何利用用戶畫像體現個性化。

每個環節若出現偏差都有可能導致結果的不準確。

2、AI閱讀理解缺乏真正的思考

讓我們先來看一道語文考試中常見的閱讀理解題目——

老師提出問題：為什麼作者描寫的“窗簾”是藍色的？學生答：“因為窗簾是藍色的。 ” 老師說：“錯！藍色的‘窗簾’具有愁緒的意味，表達作者當時困郁的心境……

這種類型的閱讀理解，大家都很熟悉吧。目前， AI在中文閱讀理解的簡答題型方面表現如何還沒有具體的資料可以說明（值得一提的是，百度即將籌辦中文閱讀理解比賽，競賽將於2018年3月1日正式開啟報名通道）。但是針對這類題型，人類早已總結出了一套答題技巧，更何況是收集了大量資料文本的機器呢？在為AI建立模型時，完全可以達到以某個詞彙來刺激AI作出相應答案的程度。比如上文中的“藍色”對應“惆悵，困鬱”，再如“書信”對應“思念”等等。但是，這種操作下，AI閱讀理解在做題時用的不是“理解”，而是“套路”；因為機器沒有“思考”，只有“運算”。

為什麼這麼說呢？我們大概能在AI閱讀理解的做題流程中找到答案：

Embedding Layer（相當於是人的詞彙級的閱讀知識）：一般採用的都是在外部大規模資料上預訓練的詞向量（例如Glove等），以及基於迴圈神經網路或者卷積神經網路的從字元到單詞的詞向量（表示），這樣就可以得到問題和文章段落裡面每個單詞的上下文無關的表示。

Encoding Layer（相當於人通覽全文）：一般採用多層的迴圈神經網路得到問題和文章段落的每個詞的上下文相關的表示。

Matching Layer（相當於帶著問題讀段落）：得到問題裡面的詞和文章段落詞之間的對應（或者叫匹配）關係。基本是採用注意力（attention）的機制實現，常見的有基於Match-LSTM和Co-attention兩種，這樣就得到文章裡面每個詞的和問題相關的表示。

Self-Matching Layer（相當於人再讀一遍進行驗證）：在得到問題相關的詞表示的基礎上再採用self-attention的機制進一步完善文章段落中的詞的表示。

AnswerPointerLayer（相當於人綜合線索定位答題）:對文章段落裡面的每個詞預測其是答案開始以及答案結束的概率，從而計算文章段落中答案概率最大的子串輸出為答案。

所謂一千個讀者有一千個哈姆雷特，我們人類在理解一篇文章的時候往往會帶上自己的主觀色彩，每個人都會生成自己的看法。而AI呢？在做題之外又能否對文章生成不一樣的看法？

AI瘋狂“跑分”，其結果是成為人類更好的幫手

之所以大家都認為AI閱讀理解超越了人類，是因為從技術原理來講，AI閱讀理解超越人類是一件非常合理的事情。

首先，AI“閱讀”的能力正在一天天提升，自然語言處理技術的突破，很可能取代人類的“理解力”。其次，深度神經網路模型能夠類比人類在做閱讀理解問題時的一些行為，包括結合篇章內容審題，帶著問題反復閱讀文章，避免閱讀中遺忘而進行相關標注等。於是，自然語言處理技術和深度神經網路模型相結合，使得AI可以進行超乎人類的閱讀理解，似乎就成為了順理成章的一件事。

於是很多人開始思考，AI閱讀理解是否會替代由人工完成的規則、對話、服務資訊類的相關理解工作？事實上，這種想法僅僅是理論上成立，但在實際應用時還有很多問題。

首先是把閱讀理解這件事過分簡單化了。閱讀理解的題目分為精准匹配和模糊匹配，前者是硬性的閱讀理解，即看到一段文字提取對應的資訊，並進行簡單的加工處理得到直觀的資訊；後者則是通過一段文字或一篇文章，結合文字背後的背景資訊以及現實世界中的社會、人文背景以及讀者的閱歷等諸多方面，經過邏輯和“感性”的思考得出的理解和感受。換句話說，閱讀理解是包含了語境理解、人文理解以及對內容熟稔之後的綜合工作。這些顯然是AI無法替代的。

再者，AI閱讀理解的“跑分”結果是有著前提約束條件的，比如在確定的題庫和測試時間，並且只是成年人平均理解水準。而要進一步推動閱讀理解技術的發展，就得跟無人駕駛汽車分級測試一樣需要設定問題的難度，逐級增加難度，對每一個級別建立訓練和評測集合。

總之，擁有超越人類的理解力，還是今天的AI所無法做到的。這也意味著，AI更合適成為人類幫手，而非替代者。二者結合最好的方式，應該是AI進行基礎處理，人類用AI來提升工作效率。這種人機交互的關係，其實在大部分“可能被AI替代的工作崗位”中都能找到。

這個閱讀理解的“跑分高手”，還能在哪裡幫助人類

智慧相對論認為目前這兩個方面AI閱讀理解能大展拳腳。

1.貼近真實需求，助力人機交互

例如智慧客服中，可以使用機器閱讀文本文檔（如使用者手冊、商品描述等）來自動或輔助客服來回答用戶的問題。

在搜尋引擎中，機器閱讀理解技術可以用來為用戶的搜索（尤其是問題型的查詢）提供更為智慧的答案。目前R-NET的技術已經成功地在微軟的必應搜尋引擎中得到了很好的應用。我們通過對整個互聯網的文檔進行閱讀理解，從而直接為用戶提供精確的答案。同時，這在移動場景的個人助理如微軟小娜（Cortana）裡也有直接的應用。

在辦公領域，機器閱讀理解技術也有很好的應用前景，比如使用機器閱讀理解技術處理個人的郵件或者文檔，然後用自然語言查詢獲取相關的資訊。

2.友好嵌入環境，“技術”成為“助手”

此外，機器閱讀理解技術在垂直領域也有非常廣闊的應用前景，例如在教育領域用來輔助出題，法律領域用來理解法律條款，輔助律師或者法官判案，醫療領域理解醫療資訊，説明病人諮詢，以及在金融領域裡從非結構化的文本（比如新聞中）抽取金融相關的資訊等。

正如阿裡巴巴研究院自然語言處理首席科學家司羅在一份公告中所說的一樣，對於像“天為什麼會下雨”這樣的客觀問題，機器給出的答案準確率會很高。公告稱，其中的技術可以逐步應用于諸如客服、博物館指南、線上解答患者醫療問題等廣泛的實際應用領域，從而以一種前所未有的方式減少人力投入的需求。更甚者，機器閱讀理解技術可以做成一個通用的能力，釋放給協力廠商用來構建更多的應用。

總結：

微軟團隊負責人周明老師曾在訪談中說到，“超越人類不能作為媒體的報導噱頭，我們在看到技術進步的同時，更應該冷靜思考模型的不斷完善和技術應用落地。這是一個生態，需要所有業界同仁一起健康競爭，把現階段面臨的難題攻克，而非停留在比賽第一這樣的階段性喜悅中。”

閱讀理解能力是人類智慧中最關鍵的能力之一，AI閱讀理解技術有著十分廣泛的應用前景，可能那還很遠，也可能很近，但比起超越人類，AI應該更有可能成為人類幫手。即使它在許多人類制定的規則專案中“贏”了人類，真正“超越人類”的還是人類自己。

比如上文中的“藍色”對應“惆悵，困鬱”，再如“書信”對應“思念”等等。但是，這種操作下，AI閱讀理解在做題時用的不是“理解”，而是“套路”；因為機器沒有“思考”，只有“運算”。