AI重大突破！阿裡巴巴機器閱讀理解準確率超過人類

2018年伊始，人工智慧取得重大突破！1月11日，由斯坦福大學發起的機器閱讀理解領域頂級賽事SQuAD刷新排名，令業界振奮的是人工智慧的閱讀能力歷史上首次超越人類。阿裡巴巴憑藉82.440的精准率打破了世界紀錄，並且超越了人類82.304的成績。

SQuAD的負責人Pranav Rajpurkar難掩興奮之情。他在社交媒體上表示， 2018年一個強勁的開始，第一個模型（阿裡巴巴iDST團隊提交的SLQA +）在精准度匹配上超越人類表現！下一個挑戰：模糊匹配，人類仍然領先2.5分！

SQuAD比賽構建了一個大規模的機器閱讀理解資料集(包含10萬個問題)，文章來源於500多篇維琪百科文章。人工智慧在閱讀完資料集中的一篇短文之後，需要回答若干個基於文章內容的問題，然後與標準答案進行比對，得出精確匹配(Exact Match)和模糊匹配(F1-score)的結果。

SQuAD是行業內公認的機器閱讀理解頂級賽事，吸引了包括穀歌、卡內基·梅隆大學、斯坦福大學、微軟亞洲研究院、艾倫研究院、IBM、Facebook等知名企業研究機構和高校的深度參與。

此次技術的重大突破源于阿裡巴巴研究團隊提出的“基於分層融合注意力機制”的深度神經網路模型。

該模型能夠類比人類在做閱讀理解問題時的一些行為，包括結合篇章內容審題，帶著問題反復閱讀文章，避免閱讀中遺忘而進行相關標注等。模型可以在捕捉問題和文章中特定區域關聯的同時，借助分層策略，逐步集中注意力，使答案邊界清晰；另一方面，為避免過於關注細節，採用融合方式將全域資訊加入注意力機制，進行適度糾正，確保關注點正確。

阿裡巴巴自然語言處理首席科學家司羅表示，對於解決wiki類客觀知識問答，機器已經取得非常好的結果，

我們將繼續向對通用內容的“能理解會思考”的終極目標邁進。今後，研發的重點在於把這項技術真正應用在廣大實際場景，讓機器智慧普惠生活。

實事上，這項技術已經在阿裡巴巴內部被廣泛使用。比如，每年雙11都會有大量的顧客對活動規則進行諮詢。阿裡小蜜團隊通過使用司羅團隊的技術，讓機器直接對規則進行閱讀，為使用者提供規則解讀服務，是最自然的對話模式。再比如，顧客還會針對單個商品詢問大量的基礎問題，而這些問題其實在商品詳情頁都是有答案的。

此前曾在2016年ACM CIKM 個性化電商搜索、2017年IJCNLP中文語法檢測CGED評測、2017年年美國標準計量局TAC評比英文實體分類等大賽中取得全球第一的成績。