阿裡巴巴刷新世界紀錄人工智慧的閱讀能力歷史上首次超越人類！

2018年伊始，人工智慧取得重大突破！1月11日，由斯坦福大學發起的機器閱讀理解領域頂級賽事SQuAD刷新排名，令業界振奮的是人工智慧的閱讀能力歷史上首次超越人類。阿裡巴巴憑藉82.440的精准率打破了世界紀錄，並且超越了人類82.304的成績。

SQuAD的負責人Pranav Rajpurkar難掩興奮之情。他在社交媒體上表示， 2018年一個強勁的開始，第一個模型（阿裡巴巴iDST團隊提交的SLQA +）在精准度匹配上超越人類表現！下一個挑戰：模糊匹配，人類仍然領先2.5分！

什麼是SQuAD？

SQuAD 是由 Rajpurkar 等人[1]提出的一個最新的閱讀理解資料集。該資料集包含 10 萬個（問題，原文，答案）三元組，原文來自於 536 篇維琪百科文章，而問題和答案的構建主要是通過眾包的方式，讓標注人員提出最多 5 個基於文章內容的問題並提供正確答案，且答案出現在原文中。 SQuAD 和之前的完形填空類閱讀理解資料集如 CNN/DM[2]， CBT[3]等最大的區別在於：SQuAD 中的答案不在是單個實體或單詞，

而可能是一段短語，這使得其答案更難預測。

SQuAD 包含公開的訓練集和開發集，以及一個隱藏的測試集，其採用了與 ImageNet 類似的封閉評測的方式，研究人員需提交演算法到一個開放平臺，並由 SQuAD 官方人員進行測試並公佈結果。

SQuAD是行業內公認的機器閱讀理解頂級賽事，吸引了包括穀歌、卡內基·梅隆大學、斯坦福大學、微軟亞洲研究院、艾倫研究院、IBM、Facebook等知名企業研究機構和高校的深度參與。

此次技術的重大突破源于阿裡巴巴研究團隊提出的“基於分層融合注意力機制”的深度神經網路模型。該模型能夠類比人類在做閱讀理解問題時的一些行為，包括結合篇章內容審題，帶著問題反復閱讀文章，避免閱讀中遺忘而進行相關標注等。

自從 SQuAD 資料集公佈以來，大量具有代表性的模型紛紛湧現，極大地促進了機器閱讀理解領域的發展。總的來說，由於 SQuAD 的答案限定于來自原文，模型只需要判斷原文中哪些詞是答案即可，因此是一種抽取式的 QA 任務而不是生成式任務。幾乎所有做 SQuAD 的模型都可以概括為同一種框架：Embed 層， Encode 層， Interaction 層和 Answer 層。 Embed 層負責將原文和問題中的 tokens 映射為向量表示；Encode 層主要使用 RNN 來對原文和問題進行編碼，這樣編碼後每個 token 的向量表示就蘊含了上下文的語義資訊；Interaction 層是大多數研究工作聚焦的重點，該層主要負責捕捉問題和原文之間的交互關係，並輸出編碼了問題語義資訊的原文表示，即 query-aware 的原文表示；最後 Answer 層則基於 query-aware 的原文表示來預測答案範圍。

模型可以在捕捉問題和文章中特定區域關聯的同時，借助分層策略，逐步集中注意力，使答案邊界清晰；另一方面，為避免過於關注細節，採用融合方式將全域資訊加入注意力機制，進行適度糾正，確保關注點正確。

阿裡巴巴自然語言處理首席科學家司羅表示， “對於解決wiki類客觀知識問答，機器已經取得非常好的結果，我們將繼續向對通用內容的能理解會思考的終極目標邁進。今後，研發的重點在於把這項技術真正應用在廣大實際場景，讓機器智慧普惠生活。 ”

實事上，這項技術已經在阿裡巴巴內部被廣泛使用。比如，每年雙11都會有大量的顧客對活動規則進行諮詢。阿裡小蜜團隊通過使用司羅團隊的技術，

讓機器直接對規則進行閱讀，為使用者提供規則解讀服務，是最自然的對話模式。

由司羅領導的自然語言處理團隊支撐了阿裡巴巴整個生態的技術需求。由他們研發的AliNLP自然語言技術平臺每日調用1200億+次， Alitranx 翻譯系統提供20個語種線上服務日調用量超過7億+次。此前曾在2016年ACM CIKM 個性化電商搜索、2017年IJCNLP中文語法檢測CGED評測、2017年年美國標準計量局TAC評比英文實體分類等大賽中取得全球第一的成績。

阿裡巴巴刷新世界紀錄 人工智慧的閱讀能力歷史上首次超越人類！

阿裡巴巴刷新世界紀錄人工智慧的閱讀能力歷史上首次超越人類！