您的位置:首頁>正文

高考機器人惜敗人類狀元,輸在“語文是程式師教的”

6月7日晚間, AI-MATHS在斷網斷題庫的情況下完成了北京文科數學卷和全國二卷數學卷, 分別用時22分鐘與10分鐘, 考試成績也於當天揭曉, 分別為105與100分(兩套試卷的總分均為150分)。 這一分數說不上是數學“學霸”, 不過還算差強人意。 畢竟, AI-MATHS研發團隊設立的高考目標分也才110。

靠“刷題“提升, 考試時需斷網

像普通高考考生一樣, AI-MATHS也靠大量“刷題”提升水準。 今年2月, AI-MATHS僅靠100套試題的訓練量, 在一次模擬考中取得了93分的成績。 2月份之後, 為了訓練AI-MATHS的答題速度, 團隊加大了題量, 目前AI-MATHS已有500套試題的積累, 這次AI-MATHS算是超越自己了吧。

AI-MATHS現場答題(Source:澎湃新聞)

資料顯示, AI-MATHS是成都高新區一家本土人工智慧企業研發, 以自動解題技術為核心的人工智慧系統, 誕生於2014年, 在2016年5月宣佈參加今年高考數學試卷。 業界透露, 讓機器人參與高考, 旨在測試機器人能達到什麼樣的人工智慧水準, 然後在更多地方應用AI成果。

AI-MATHS由10餘台伺服器組成, “考場”設在成都天府新谷10號樓的一個會議室裡。 像考生會被切斷與外界的聯繫一樣, 開始答題時這些伺服器也會被切斷網路連接。 由公證機構和媒體出任“監考老師”。

AI-MATHS主機

據瞭解, 準星AI-MATHS近1年多來, 在複雜邏輯推理、直覺觀察推理、電腦演算法、深度學習上都進行了深入攻關。

它是通過綜合邏輯推理平臺來解題, 而非學習儲存題庫。 本次挑戰的結果也將運用到該公司對AI-MATHS的技術驗證中, 幫助AI-MATHS早日從“學生”變成“老師”。

現場老師給AI-MATHS評卷(Source:成都發佈)

Aidam機器人大戰六名高考理科狀元

北京這邊戰況更加慘烈, 教育機構“學霸君”自行研發的智慧教育機器人Aidam與六名高考理科狀元同台對決, 共同解答今年高考文科數學試題, 滿分為150分。 結果Aidam的成績為134分, 六名狀元為135分, 險勝。

昨天(6月7日)晚間六點四十分, Aidam開始答題。 這不是一個普通的高考考場大約三百平方的大廳裡, 迴圈大聲播放著一首鋼琴曲, 時不時還有女主持人和嘉賓對話——明顯比考場嘈雜多了。

Aidam和六名學霸同時開始答題

Aidam僅僅經歷九分四十七秒就答題結束。 學霸君創始人張凱磊坦言自己很緊張, “就像送自己的女兒參加高考”。 他表示, 為了展示, Aidam昨天答題放慢六倍速度, 平時每道題完成時間應該在七至十五秒。

學霸君創始人張凱磊講解Aidam解題原理

Aidam放慢的原因是不僅需要把題目做對,還需要給大家展示他是如何做到的。根據要求,Aidam會通過禮堂前部的大螢幕來展示:左邊是一個由無數藍色光點組成的大腦,每算一道題,藍色大腦裡就會跳出若干以紅色、黃色、藍色節點構建的知識鏈。每個節點旁邊有一行白色的字,標注著這道題涉及了哪些知識。

Aidam解題全程展示

六名高考狀元在高考數學結束拿到試題後,即開始答題,答題時間是五十五分鐘。人機雙方分別完成了包括客觀題和主觀題在內的整張試卷,並按照評分標準得出最終成績。

經過數學特級老師、奧賽教練韓兆勇的評審,Aidam的分數最終公佈:134 分。三組高考狀元陪他一起進行測試,狀元一組得分119分。狀元二組得分140分。狀元三組得分146分。三組高考狀元平均分135分,Aidam以 1 分之差惜敗于最精英的人類“做題家”。

2016年河北省理科狀元孟祥熙現就讀于北京大學光華管理學院,他受訪時表示,“人機大戰贏了很開心,但是機器人技術很先進,想知道自己解題錯在哪裡”。

以拍照搜題為最初產品的學霸君,其產品已經有 6000 萬註冊用戶,答題搜索次數超過 60 億,老師線上答疑超過 500 萬次。這一龐大的題庫和資料積累為 Aidam 的發展打下了基礎,“我發現,原來在我們的題庫裡面我們記錄了大量的關於狀態之間可跳轉、可推演、可演算、可關聯的資訊。” 在講解 Aidam 的背後邏輯的時候,學霸君的首席科學家陳銳鋒使用了圍棋作為比喻。

類似於圍棋棋盤可以被分為無數橫軸和縱軸。人的思維模式和解題模式也可以被具象為棋子,棋子的縱軸與橫軸分別代表起始的狀態和下一步的狀態,這樣,每一次題目的可能解法,就相當於在一個龐大思維矩陣裡下棋的過程。而學霸君此前積累的龐大的題庫與資料記錄,恰恰類似于無數張圍棋棋譜,為人工智慧自主學習提供了可能性。

高考機器人的意義在哪?

機器人參加高考,並不是所謂的 “ 人機大戰 ” 後才出現的噱頭。在國家層面,“ 高考機器人 ” 是國家863計畫信息技術領域 “ 基於大資料的類人智慧關鍵技術與系統 ” 專案的重要研究目標之一。該專案由科大訊飛聯合30多家科研院校和企業共同參與,早在2015年便已立項。

“ 高考機器人 ” 有多方面的意義:聚集國內的一些比較頂級的研究機構和科學家,一起來攻關現在人工智慧領域相關的一些重要的技術問題;替代傳統測試人工智慧水準的 “ 圖靈測試 ” ,全方面測試和應用與人工智慧相關的多個領域;最後將這些領域攻關所取得的技術成果,運用到相關行業和領域,如翻譯和車載控制等。

儘管目標類似,但不同的背景決定了AI-Maths和Aidam的不同的解題思路,甚至在一定程度上截然相反:準星雲學的 AI-Maths 與 863 計畫的高考機器人的思路一致,強調 “ 不聯網、不連接題庫、無人工參與 ”。在只有少量訓練樣本的情況(只有約500套試卷、1萬道題的訓練量)以機器建立類似人類的複雜邏輯推理能力與聯想能力。試圖讓機器在較少樣本和較少資源耗費的情況下,擁有“舉一反三”能力。而學霸君的思路則強調大題庫(已經有超過7000萬的巨大題庫),通過海量的題庫,使用者行為資料,以及 Ai 自我博弈,從海量題目中找到適合共通的知識元件和解題模式。

AI-Math解題全程斷網斷庫,全憑“學習來”的知識

從某種角度說,這兩種模式的區別類似於Alphago 早期版本的學習過程,電腦可以通過規則自己對弈,也可以學習棋譜。從此前的測試中看,Aidam 的成績要好於 AI-Maths,但如果以純粹人工智慧的難度和多行業的延展性,AI-Maths 要略高一籌。

機器人的語文可能是數學老師教的

但為何這次AI-MATHS機器人無論是目標分還是實際成績都沒有非常高呢?澎湃新聞調查表示,因為AI-MATHS對自然語義的理解還有點弱。

比如北京文科數學卷這題:

AI-MATHS答不出來的數學題(Source:成都發佈)

AI-MATHS沒能答出來,不是因為計算問題,而是機器不理解提問的意思。

一言以蔽之,這個機器人考生的數學成績,敗給了自己的語文水準。負責改卷的成都七中高級教師祁祖海指出,AI-MATHS錯誤題的共同點是文字太多,但它的計算題和證明題做得不錯,分數算中等水準,正常學生能考110分左右。

據瞭解,AI-MATHS 學習了小學到高中的 7000 多個考點,運算量可達到 2 的 800 次方,其研發團隊準星雲學的創始人林輝認為,跟 AlphaGo 相比,高考機器人的研發難度更大,因為要讓系統準確理解人類語言。人類的語言千變萬化,而且還在不斷創新,幾乎是學不完的。遇到沒學過的生詞,人類會聯繫上下文去推測詞義,猜對是比較容易的事;而機器人卻會卡殼。比如,正切(tangent)的縮寫,近年來的教材和試題裡面都用的是“tan”,但早些年用過“tg”。團隊在訓練AI-MATHS用的題都是“tan”,最近突然讓它做了一道“tg”的題,它就懵了。

不僅是AI-MATHS,我們發現Siri、微軟小娜等聊天機器人也場景提問下的回答也不夠靈活與聰明,這也是因為它們對自然語言的理解能力還不夠強。

兩部機器人高考成績出爐後,也引發了網友熱議,雖然嘲弄居多,但也有網友笑說“馬雲第一次高考,數學才考1分呢,機器人很厲害了”。不知道前段時間怒懟AlphaGo的馬爸爸聽後有什麼感想:)

學霸君創始人張凱磊講解Aidam解題原理

Aidam放慢的原因是不僅需要把題目做對,還需要給大家展示他是如何做到的。根據要求,Aidam會通過禮堂前部的大螢幕來展示:左邊是一個由無數藍色光點組成的大腦,每算一道題,藍色大腦裡就會跳出若干以紅色、黃色、藍色節點構建的知識鏈。每個節點旁邊有一行白色的字,標注著這道題涉及了哪些知識。

Aidam解題全程展示

六名高考狀元在高考數學結束拿到試題後,即開始答題,答題時間是五十五分鐘。人機雙方分別完成了包括客觀題和主觀題在內的整張試卷,並按照評分標準得出最終成績。

經過數學特級老師、奧賽教練韓兆勇的評審,Aidam的分數最終公佈:134 分。三組高考狀元陪他一起進行測試,狀元一組得分119分。狀元二組得分140分。狀元三組得分146分。三組高考狀元平均分135分,Aidam以 1 分之差惜敗于最精英的人類“做題家”。

2016年河北省理科狀元孟祥熙現就讀于北京大學光華管理學院,他受訪時表示,“人機大戰贏了很開心,但是機器人技術很先進,想知道自己解題錯在哪裡”。

以拍照搜題為最初產品的學霸君,其產品已經有 6000 萬註冊用戶,答題搜索次數超過 60 億,老師線上答疑超過 500 萬次。這一龐大的題庫和資料積累為 Aidam 的發展打下了基礎,“我發現,原來在我們的題庫裡面我們記錄了大量的關於狀態之間可跳轉、可推演、可演算、可關聯的資訊。” 在講解 Aidam 的背後邏輯的時候,學霸君的首席科學家陳銳鋒使用了圍棋作為比喻。

類似於圍棋棋盤可以被分為無數橫軸和縱軸。人的思維模式和解題模式也可以被具象為棋子,棋子的縱軸與橫軸分別代表起始的狀態和下一步的狀態,這樣,每一次題目的可能解法,就相當於在一個龐大思維矩陣裡下棋的過程。而學霸君此前積累的龐大的題庫與資料記錄,恰恰類似于無數張圍棋棋譜,為人工智慧自主學習提供了可能性。

高考機器人的意義在哪?

機器人參加高考,並不是所謂的 “ 人機大戰 ” 後才出現的噱頭。在國家層面,“ 高考機器人 ” 是國家863計畫信息技術領域 “ 基於大資料的類人智慧關鍵技術與系統 ” 專案的重要研究目標之一。該專案由科大訊飛聯合30多家科研院校和企業共同參與,早在2015年便已立項。

“ 高考機器人 ” 有多方面的意義:聚集國內的一些比較頂級的研究機構和科學家,一起來攻關現在人工智慧領域相關的一些重要的技術問題;替代傳統測試人工智慧水準的 “ 圖靈測試 ” ,全方面測試和應用與人工智慧相關的多個領域;最後將這些領域攻關所取得的技術成果,運用到相關行業和領域,如翻譯和車載控制等。

儘管目標類似,但不同的背景決定了AI-Maths和Aidam的不同的解題思路,甚至在一定程度上截然相反:準星雲學的 AI-Maths 與 863 計畫的高考機器人的思路一致,強調 “ 不聯網、不連接題庫、無人工參與 ”。在只有少量訓練樣本的情況(只有約500套試卷、1萬道題的訓練量)以機器建立類似人類的複雜邏輯推理能力與聯想能力。試圖讓機器在較少樣本和較少資源耗費的情況下,擁有“舉一反三”能力。而學霸君的思路則強調大題庫(已經有超過7000萬的巨大題庫),通過海量的題庫,使用者行為資料,以及 Ai 自我博弈,從海量題目中找到適合共通的知識元件和解題模式。

AI-Math解題全程斷網斷庫,全憑“學習來”的知識

從某種角度說,這兩種模式的區別類似於Alphago 早期版本的學習過程,電腦可以通過規則自己對弈,也可以學習棋譜。從此前的測試中看,Aidam 的成績要好於 AI-Maths,但如果以純粹人工智慧的難度和多行業的延展性,AI-Maths 要略高一籌。

機器人的語文可能是數學老師教的

但為何這次AI-MATHS機器人無論是目標分還是實際成績都沒有非常高呢?澎湃新聞調查表示,因為AI-MATHS對自然語義的理解還有點弱。

比如北京文科數學卷這題:

AI-MATHS答不出來的數學題(Source:成都發佈)

AI-MATHS沒能答出來,不是因為計算問題,而是機器不理解提問的意思。

一言以蔽之,這個機器人考生的數學成績,敗給了自己的語文水準。負責改卷的成都七中高級教師祁祖海指出,AI-MATHS錯誤題的共同點是文字太多,但它的計算題和證明題做得不錯,分數算中等水準,正常學生能考110分左右。

據瞭解,AI-MATHS 學習了小學到高中的 7000 多個考點,運算量可達到 2 的 800 次方,其研發團隊準星雲學的創始人林輝認為,跟 AlphaGo 相比,高考機器人的研發難度更大,因為要讓系統準確理解人類語言。人類的語言千變萬化,而且還在不斷創新,幾乎是學不完的。遇到沒學過的生詞,人類會聯繫上下文去推測詞義,猜對是比較容易的事;而機器人卻會卡殼。比如,正切(tangent)的縮寫,近年來的教材和試題裡面都用的是“tan”,但早些年用過“tg”。團隊在訓練AI-MATHS用的題都是“tan”,最近突然讓它做了一道“tg”的題,它就懵了。

不僅是AI-MATHS,我們發現Siri、微軟小娜等聊天機器人也場景提問下的回答也不夠靈活與聰明,這也是因為它們對自然語言的理解能力還不夠強。

兩部機器人高考成績出爐後,也引發了網友熱議,雖然嘲弄居多,但也有網友笑說“馬雲第一次高考,數學才考1分呢,機器人很厲害了”。不知道前段時間怒懟AlphaGo的馬爸爸聽後有什麼感想:)

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示