高考機器人惜敗人類狀元，輸在“語文是程式師教的”

6月7日晚間， AI-MATHS在斷網斷題庫的情況下完成了北京文科數學卷和全國二卷數學卷，分別用時22分鐘與10分鐘，考試成績也於當天揭曉，分別為105與100分（兩套試卷的總分均為150分）。這一分數說不上是數學“學霸”，不過還算差強人意。畢竟， AI-MATHS研發團隊設立的高考目標分也才110。

靠“刷題“提升，考試時需斷網

像普通高考考生一樣， AI-MATHS也靠大量“刷題”提升水準。今年2月， AI-MATHS僅靠100套試題的訓練量，在一次模擬考中取得了93分的成績。 2月份之後，為了訓練AI-MATHS的答題速度，團隊加大了題量，目前AI-MATHS已有500套試題的積累，這次AI-MATHS算是超越自己了吧。

AI-MATHS現場答題（Source：澎湃新聞）

資料顯示， AI-MATHS是成都高新區一家本土人工智慧企業研發，以自動解題技術為核心的人工智慧系統，誕生於2014年，在2016年5月宣佈參加今年高考數學試卷。業界透露，讓機器人參與高考，旨在測試機器人能達到什麼樣的人工智慧水準，然後在更多地方應用AI成果。

AI-MATHS由10餘台伺服器組成， “考場”設在成都天府新谷10號樓的一個會議室裡。像考生會被切斷與外界的聯繫一樣，開始答題時這些伺服器也會被切斷網路連接。由公證機構和媒體出任“監考老師”。

AI-MATHS主機

據瞭解，準星AI-MATHS近1年多來，在複雜邏輯推理、直覺觀察推理、電腦演算法、深度學習上都進行了深入攻關。

它是通過綜合邏輯推理平臺來解題，而非學習儲存題庫。本次挑戰的結果也將運用到該公司對AI-MATHS的技術驗證中，幫助AI-MATHS早日從“學生”變成“老師”。

現場老師給AI-MATHS評卷（Source：成都發佈）

Aidam機器人大戰六名高考理科狀元

北京這邊戰況更加慘烈，教育機構“學霸君”自行研發的智慧教育機器人Aidam與六名高考理科狀元同台對決，共同解答今年高考文科數學試題，滿分為150分。結果Aidam的成績為134分，六名狀元為135分，險勝。

昨天（6月7日）晚間六點四十分， Aidam開始答題。這不是一個普通的高考考場大約三百平方的大廳裡，迴圈大聲播放著一首鋼琴曲，時不時還有女主持人和嘉賓對話——明顯比考場嘈雜多了。

Aidam和六名學霸同時開始答題

Aidam僅僅經歷九分四十七秒就答題結束。學霸君創始人張凱磊坦言自己很緊張， “就像送自己的女兒參加高考”。他表示，為了展示， Aidam昨天答題放慢六倍速度，平時每道題完成時間應該在七至十五秒。

學霸君創始人張凱磊講解Aidam解題原理

Aidam放慢的原因是不僅需要把題目做對，還需要給大家展示他是如何做到的。根據要求，Aidam會通過禮堂前部的大螢幕來展示：左邊是一個由無數藍色光點組成的大腦，每算一道題，藍色大腦裡就會跳出若干以紅色、黃色、藍色節點構建的知識鏈。每個節點旁邊有一行白色的字，標注著這道題涉及了哪些知識。

Aidam解題全程展示

六名高考狀元在高考數學結束拿到試題後，即開始答題，答題時間是五十五分鐘。人機雙方分別完成了包括客觀題和主觀題在內的整張試卷，並按照評分標準得出最終成績。

經過數學特級老師、奧賽教練韓兆勇的評審，Aidam的分數最終公佈：134 分。三組高考狀元陪他一起進行測試，狀元一組得分119分。狀元二組得分140分。狀元三組得分146分。三組高考狀元平均分135分，Aidam以 1 分之差惜敗于最精英的人類“做題家”。

2016年河北省理科狀元孟祥熙現就讀于北京大學光華管理學院，他受訪時表示，“人機大戰贏了很開心，但是機器人技術很先進，想知道自己解題錯在哪裡”。

以拍照搜題為最初產品的學霸君，其產品已經有 6000 萬註冊用戶，答題搜索次數超過 60 億，老師線上答疑超過 500 萬次。這一龐大的題庫和資料積累為 Aidam 的發展打下了基礎，“我發現，原來在我們的題庫裡面我們記錄了大量的關於狀態之間可跳轉、可推演、可演算、可關聯的資訊。” 在講解 Aidam 的背後邏輯的時候，學霸君的首席科學家陳銳鋒使用了圍棋作為比喻。

類似於圍棋棋盤可以被分為無數橫軸和縱軸。人的思維模式和解題模式也可以被具象為棋子，棋子的縱軸與橫軸分別代表起始的狀態和下一步的狀態，這樣，每一次題目的可能解法，就相當於在一個龐大思維矩陣裡下棋的過程。而學霸君此前積累的龐大的題庫與資料記錄，恰恰類似于無數張圍棋棋譜，為人工智慧自主學習提供了可能性。

高考機器人的意義在哪？

機器人參加高考，並不是所謂的 “ 人機大戰 ” 後才出現的噱頭。在國家層面，“ 高考機器人 ” 是國家863計畫信息技術領域 “ 基於大資料的類人智慧關鍵技術與系統 ” 專案的重要研究目標之一。該專案由科大訊飛聯合30多家科研院校和企業共同參與，早在2015年便已立項。

“ 高考機器人 ” 有多方面的意義：聚集國內的一些比較頂級的研究機構和科學家，一起來攻關現在人工智慧領域相關的一些重要的技術問題；替代傳統測試人工智慧水準的 “ 圖靈測試 ” ，全方面測試和應用與人工智慧相關的多個領域；最後將這些領域攻關所取得的技術成果，運用到相關行業和領域，如翻譯和車載控制等。

儘管目標類似，但不同的背景決定了AI-Maths和Aidam的不同的解題思路，甚至在一定程度上截然相反：準星雲學的 AI-Maths 與 863 計畫的高考機器人的思路一致，強調 “ 不聯網、不連接題庫、無人工參與 ”。在只有少量訓練樣本的情況（只有約500套試卷、1萬道題的訓練量）以機器建立類似人類的複雜邏輯推理能力與聯想能力。試圖讓機器在較少樣本和較少資源耗費的情況下，擁有“舉一反三”能力。而學霸君的思路則強調大題庫（已經有超過7000萬的巨大題庫），通過海量的題庫，使用者行為資料，以及 Ai 自我博弈，從海量題目中找到適合共通的知識元件和解題模式。

AI-Math解題全程斷網斷庫，全憑“學習來”的知識

從某種角度說，這兩種模式的區別類似於Alphago 早期版本的學習過程，電腦可以通過規則自己對弈，也可以學習棋譜。從此前的測試中看，Aidam 的成績要好於 AI-Maths，但如果以純粹人工智慧的難度和多行業的延展性，AI-Maths 要略高一籌。

機器人的語文可能是數學老師教的

但為何這次AI-MATHS機器人無論是目標分還是實際成績都沒有非常高呢？澎湃新聞調查表示，因為AI-MATHS對自然語義的理解還有點弱。

比如北京文科數學卷這題：

AI-MATHS答不出來的數學題（Source：成都發佈）

AI-MATHS沒能答出來，不是因為計算問題，而是機器不理解提問的意思。

一言以蔽之，這個機器人考生的數學成績，敗給了自己的語文水準。負責改卷的成都七中高級教師祁祖海指出，AI-MATHS錯誤題的共同點是文字太多，但它的計算題和證明題做得不錯，分數算中等水準，正常學生能考110分左右。

據瞭解，AI-MATHS 學習了小學到高中的 7000 多個考點，運算量可達到 2 的 800 次方，其研發團隊準星雲學的創始人林輝認為，跟 AlphaGo 相比，高考機器人的研發難度更大，因為要讓系統準確理解人類語言。人類的語言千變萬化，而且還在不斷創新，幾乎是學不完的。遇到沒學過的生詞，人類會聯繫上下文去推測詞義，猜對是比較容易的事；而機器人卻會卡殼。比如，正切（tangent）的縮寫，近年來的教材和試題裡面都用的是“tan”，但早些年用過“tg”。團隊在訓練AI-MATHS用的題都是“tan”，最近突然讓它做了一道“tg”的題，它就懵了。

不僅是AI-MATHS，我們發現Siri、微軟小娜等聊天機器人也場景提問下的回答也不夠靈活與聰明，這也是因為它們對自然語言的理解能力還不夠強。

兩部機器人高考成績出爐後，也引發了網友熱議，雖然嘲弄居多，但也有網友笑說“馬雲第一次高考，數學才考1分呢，機器人很厲害了”。不知道前段時間怒懟AlphaGo的馬爸爸聽後有什麼感想：）