機器閱讀理解打破人類記錄，解讀阿裡iDST SLQA技術

機器之心原創

作者：王藝

幾乎在同一時間，微軟和阿裡巴巴的機器閱讀理解系統在最新的 SQuAD 資料集測評結果中取得了並列第一的成績。這是歷史上第一次，機器閱讀理解的精准匹配分數超越了人類的評測結果。

這兩天 NLP 圈炸鍋了，焦點圍繞著微軟阿裡到底是誰先打破了機器閱讀理解的人類記錄。

事情是這樣的。兩家的 PK 發生在 SQuAD 資料集上，這是行業內公認的機器閱讀理解標準水準測試，也是該領域頂級賽事，被譽為機器閱讀理解界的 ImageNet（圖像識別領域的頂級賽事）。和 ImageNet 一樣， SQuAD 的成績排名也會定時更新。

微軟和阿裡先後於 1 月 3 日和 1 月 5 日在 SQuAD 官方平臺提交模型，但阿裡的結果在 1 月 11 日先於微軟產出並被公佈，微軟的結果在 1 月 12 日緊隨其後發佈。

阿裡發佈結果後，主辦方斯坦福向阿裡發了賀信，表彰其機器閱讀理解系統首次超越人類。微軟結果發佈後，鑒於雙方在更細分維度上的評測結果各有千秋，官方給出了排名並列第一的說法。

機器閱讀理解的評測維度分為 EM（Exact Match，精准匹配分數）和 F1（精確率和召回率的平均，模糊匹配分數）。

下圖可見，阿裡巴巴在 F1 分數上略勝一籌，微軟的 EM 分數優於阿裡巴巴。無論如何，我們可以欣喜地看到包括阿裡，微軟亞洲研究院，騰訊，哈工大和訊飛等中國的研究人員走在了世界的前列。

拋開「誰是第一」事件本身，機器之心採訪到此次破紀錄的阿裡巴巴 iDST NLP 團隊，希望回歸技術，對其模型進行解讀。

機器閱讀理解作為 QA 問答技術中的全新領域，允許使用者輸入非結構化文本及問題，機器在閱讀理解基礎上，從文本中尋找答案回答使用者問題。

對於阿裡巴巴來說，

機器閱讀理解技術的最直接應用就是阿裡小蜜現在能直接閱讀說明書回答用戶問題了。

本次阿裡巴巴參與測評的系統名為 SLQA，即 SLQA，即 Semantic Learning for Question Answering，是 iDST NLP 團隊提出的「基於分層融合注意力機制」的深度神經網路系統。評測證明，相比傳統方法， SLQA 的效果取得了顯著的提升。

採用傳統方法解決機器閱讀理解問題，一般會將該過程分為以下幾個步驟：

1）對問題、篇章分別進行詞法、句法分析，針對分析結果進行特徵提取：

2）基於特徵採用諸如 LR、CRF 等模型進行答案邊界預測；

3）採用梯度下降類演算法在訓練集上進行優化，擬合數據分佈。

在此過程中，基礎語言模型、依存分析等模組的準確率在一定程度上會影響訓練效果，特徵工程的優劣也同樣左右著是否能訓練得到可用的模型。

隨著深度學習在 NLP 領域的大量應用，很多場景如切詞、詞性標注、翻譯、命名實體識別等 End2End 模型逐漸取得接近並超越傳統模型的效果。在機器閱讀理解場景， iDST NLP 團隊設計了 Semantic Learning Net，即 SLQA 背後的演算法模型。

該模型類比人類在做閱讀理解問題時的一些行為，包括結合篇章內容審題、帶著問題反復閱讀文章、避免閱讀中遺忘而進行相關標注等。

團隊總結，人類在進行閱讀理解時，常見思維順序如下：

1）通讀篇章，理解文章主題和大體內容；讀題，瞭解提問內容及關注點。

2）帶著問題找答案，將問題同篇章做關聯，並結合篇章主題，理解問題重點。

3）定位可能的答案範圍，並再次重點閱讀附近文字。

4）為避免忘記問題，

再次審題，並結合 3）中重點區域進行答案圈選。

5）針對挑出的答案候選進行精篩，確定最正確的答案。

結合以上思路，團隊構建模型的主要思想是在捕捉問題和文章中特定區域關聯的同時，借助分層策略，逐步集中注意力，使答案邊界清晰。

同時，為了避免過於關注細節，團隊採用融合方式將全域資訊加入注意力機制，進行適度糾正，確保關注點正確。這種逐步聚焦並兼顧全域的方式與其他參賽者已經公佈的的做法不太相同，也是團隊此次刷榜登頂的關鍵所在。

目前業界主流的基於 End2End 學習的機器閱讀理解模型主要為 Encode-Interaction-Pointer 框架。基於上述分析，SLQA 系統包含如下基本結構：Encoder Layer（文本表徵），Attention Layer（注意力機制），Match Layer（問題篇章匹配）以及 Output Layer（答案預測）。

Encoder Layer 用於表示學習，可以理解為語言模型層，用以將篇章及問題從離散字元轉變為蘊含語義的表徵向量。團隊採用了多層雙向 LSTM 並分別對篇章和問題進行主題和重點詞關注。

Attention Layer 得到有效的問題及篇章表徵後，為表達依據問題定位答案過程，縮小備選答案查找範圍，將搜索空間通過注意力機制約束，主要進行多層融合注意力表示，對問題和篇章進行相關性對齊（Align），並不斷補充全域資訊（Fusion），每一次對齊都基於下層資訊並在此基礎上更加細化（paragraph→sentence→phrase→word），採用的方式分別為 Co-Attention（篇章到問題，問題到篇章），Self-Attention（問題自身，篇章自身）。

Match Layer 用於做融合資訊後的問題和篇章匹配，團隊採用雙線性矩陣來學習經過多層資訊過濾後的篇章和問題匹配參數，由於在前一階段無關資訊已經被過濾，最後的匹配可完成答案的定位工作。

Output Layer 結合匹配資訊對篇章中詞彙進行標注，預測相應詞彙是答案開始位置或結束位置的概率。之後，模型會抽取可能性最高的一段連續文本作為答案。

團隊採用的技術就是基於以上四個Layer的深度神經網路模型，重點探索和研究的Layer是第三層（Hierarchical Attention Fusion Network）。

iDST NLP 團隊負責人司羅表示，本次 SQuAD 評測登頂得益於其 NLP 團隊自身的完善性。「NLP 領域內的很多技術方向可以互相借鑒，例如機器閱讀理解任務，我們就借鑒了機器翻譯的一些技術。應該說我們機器閱讀理解的技術是建立在我們更廣闊的自然語言處理能力上的。」

讓知識獲取不受人腦的限制

據司羅介紹，本次登頂只是阿裡巴巴相關技術研發的一個側面，其所指向的「創新的問答系統」的落地應用才是團隊的重要發展方向。

由於團隊支持阿裡大生態下的問答技術業務（如與阿裡小蜜合作的智慧客服等），因此團隊的著眼點其實一直放在業務應用場景而非單純的技術突破上。

「阿裡小蜜是我們所知的第一個真正把機器閱讀理解應用在大規模客服場景下的產品。」司羅說。

除阿裡小蜜外，SLQA 系統在售前諮詢場景也能發揮作用。

更廣泛地，著眼整個社會，機器閱讀理解也有著巨大的價值。試想機器自動閱讀病歷回答病人關心的問題、自動閱讀古今名著幫人們寫論文、自動閱讀旅遊場景的說明書來回答旅行者的問題、自動閱讀繁複的法律稅務條款來幫助人們解決法律報稅的問題。

「機器閱讀理解讓知識獲取不受人腦的限制。」司羅說。

儘管社會價值巨大，但目前的機器閱讀理解技術還在面臨很大的挑戰。例如該技術對於解決 WIKI 類客觀知識問答已經取得比較好的結果，但對於複雜問題來說仍處於比較初級的階段。

司羅認為，這是由於 WIKI 場景的資料相對較為充分、文檔結構也清晰、內容描述較為正規。而其他廣大的應用場景常常存在訓練資料不足、文檔知識不明確、描述不完整等問題，有不少甚至要通過多步推理才能得到答案。

這不僅對阿裡巴巴，也對整個業界提出了挑戰。司羅表示，阿裡希望建立自己完善的自然語言技術能力，在領域自我調整、多步推理、知識自動抽取和歸納等方面進行全面且充分的準備，迎接這些挑戰。