您的位置:首頁>正文

闢謠:ETS出臺反作弊新規?海量考生被判作弊?別再瞎傳謠言了!

聽說最近ETS出臺了新的反作弊新規, 就為了甄別雷同作文?考生在寫作文的時候只要一用模版就會被判作弊?很多同學都慌了...小編告訴你, 不慌!趕緊來看看到底怎麼回事~

消息從哪裡來?

事件起源于一些考生的回饋, 說自己兩次考試用了同一篇範本, 結果第一次是 good, 而第二次被判了 limited 。 或者是由於使用了範本, 小作文是 good, 而獨立寫作是 limited 等情況。

由於回饋的人數較多, 一些機構推斷, 是 ETS 修改了 e-rater 的評分標準, 收緊了對範本的容忍度, 對使用範本的作文更加嚴厲了。

推論到此還是比較靠譜的。 畢竟, 背範本並不能反映出真實的語言水準。 ETS 為了能夠保證考試的公平與科學性, 嚴厲對待範本作文是很有可能的。

可是接下來, 推論就開始走偏了:使用範本會被判作弊?

這未免有些危言聳聽。 畢竟根據目前考生回饋的資訊, 大家都是因為使用範本而被判了低分,

並沒有人得到 hold 的結果。 而且作弊甄別與評分完全是兩個機制, 修改 e-rater, 並不影響作弊甄別的機制。 否則, 讓 e-rater 又評分, 又反作弊, 簡直是虐待 AI 啊。

既沒有官方聲明, 也沒有足夠的證據支撐, 我們可以認為, “使用範本被判作弊”完全是不靠譜的標題黨!

不過, 這也反映出了一個問題:

大家對於考試技術是真的不瞭解!

那麼今天我們就來科普一下!

考試機構是如何反作弊的?

在口語、作文評分中

閱卷老師對待範本作文又會如何處理呢?

雖然 ETS並未公開公佈甄別做法以及評分的具體流程, 但目前大型考試均是標準化考試, 一些做法都很相似。 在此, 結合老師歷次參與大型國內考試經驗, 和大家談談考試常見評分與作弊甄別的方法。

作弊甄別的常用手段

通常情況下, 我們常說的作弊可能包括兩方面, 一種是抄襲, 另一種是泄題。 所以, 通過統計手段可以甄別出的是抄襲這種情況, 俗稱雷同答卷。

判斷兩個考生的答卷是否雷同, 需要算出許多統計指標, 這些指標有的基於選同數(選擇一致的題目數量),

有的是基於錯同數(答錯且一致的題目數量)。

當這些指標達到某一臨界值的時候, 就判定這兩個考生回答是雷同的。 當然如果只靠 1 個指標就判定雷同, 誤判的可能性太大了, 因此一般會綜合參考多項指標, 找出在這多項指標上均超出臨界值的考生組合。

通過這樣的判斷方法, 誤判的可能性會被降低到 10-17, 比中大樂透還難。

當然上面說的是客觀題的甄別方法, 主觀題(如作文、口語、回答問題)雷同卷的甄別方法主要是通過文本間的相似程度。 可是主觀題的作弊甄別誤判的可能性太大了, 如套範本、抄題乾等行為都會被檢測出來。

而這些行為只能說是消極或投機的答題方式, 並不是實際的作弊行為。

因此在學術界, 主觀題雷同甄別的主要困難就是如何把這些情況排除掉, 以免誤傷考生。

敲黑板, 劃重點!研究人員們都在想方設法把這些情況摘出去, 又怎麼會不分青紅皂白, 只因你使用了範本就給你判作弊呢?

口語/作文閱卷如何對待範本?

作為一個經驗豐富的閱卷員,雖然從感情上,一看到套用範本的作答,印象就不是很好,很想給低分,但是評分規則告訴我,不能這麼做!要理性!

那麼,以國內某大型語言考試的閱卷經驗為例,介紹一些閱卷老師是怎麼給範本作文打分的(滿分 5 分為例):

1. 若範本內容與作文、口語話題完全無關,而且通篇除了範本,幾乎沒有自己的表達,那麼此類文章會給 1 分。

2. 若範本內容與作文、話題完全無關,但除了範本內容外,考生加入了自己的表達,而且比例較大,那麼就將範本內容視作“無效”,僅根據考生自己的回答內容來評分。

3. 若範本內容與作文、口語話題有關,那麼範本內容就視為“有效”,閱卷員需要根據學生的表達水準判分,但不能給高分。也就是說如果滿分為 5 分,一旦你用了範本,即使表達再好,最高也只能給你 3 分或者 2 分。

範本不僅僅包括寫作框架,還包括範本例子,以及閱讀題、聽力題的材料。判斷你是否是使用了範本,有時候並不需要機器,人工也可以做到。

當參考人數特別多時,耍小聰明的考生不止一個,而是成千上萬個,閱卷老師看個十幾二十篇就能發現了。

E-rater 評分變化了嗎?

根據考生的回饋資訊,我們猜測 ETS 已經不再寬容使用範本的行為。

那麼,e-rater 就是一個很好的檢測工具,利用它可以更準確地識別出使用了範本的作文,甚至查出使用了哪篇範本。

那麼 e-rater 對於範本作文是怎麼評分的?

對此,ETS 沒有公佈具體變化,但是我們猜測,也許是在原有評分標準的基礎上增加了限制。口語、作文評分不可能採取扣分制,但 e-rater 可以根據你的回答,以及範本占總篇幅的比例來適當限制你的作文得分。

關於 e-rater 的評分機制,我們在以前的文章中曾介紹過,不清楚的同學可以去看這篇文章:揭開託福寫作評分幕後黑手(e-rater)的神秘面紗

在這裡,大家簡要介紹一下 e-rater 的評分標準:

語法錯誤:動詞時態錯誤、代詞錯誤、所屬格錯誤、漏寫或錯寫單詞、句子不完整、不斷句、句子混亂、主謂不一致。

用法錯誤:冠詞錯誤、混淆詞義、詞形不正確、錯誤的比較級、不規範的動詞或詞語形式。

寫作規範問題:拼寫、首字母大小寫、數位規範、標點(缺少問號、缺少逗號、缺少句號、缺少連字號)、兩個單詞連寫、錯誤的合成詞、重複的詞。

語言風格問題:用詞反復、不合適的單詞或片語、太多句子以連詞開頭、太多短句子、太多冗餘的長句子、被動語態。

組織 (Organization) 和發展 (Development):可以簡單理解為篇章結構和詞彙豐富度

主題詞匯的使用:判斷內容是否與話題相關

其中,在第 7 項標準,主題詞匯的使用中,e-rater 就是通過將考生作文與作文語料庫中的文章比對來完成評分的,在這個時候,和語料庫中的高分作文相似度高可能是一件好事兒。

但從最近考生的回饋來看,ETS很可能又建立了一個用於查重的作文語料庫,這個庫中搜集了網路上的範本作文,以及歷次考試的考生答卷。將你的作文與庫中作文進行比對,一旦你的作文與多篇文章都有大面積的重複內容,那就足以說明你引用了範本。e-rater 很可能會限制你的分數上限,也就是說你即使你表達完美,無懈可擊,也只能拿到 3 分或更低。

範本還能不能用?

範本在備考初期還是很有用的。

因為英文寫作十分注重論述邏輯,而大家從小接受的中文寫作訓練更注重語言優美。所以,在備考初期,學習範本可以説明自己建立英文寫作的一般思路。但是在後期,大家就要通過自己的表達,來建立一套自己的體系。

而考試中,就不能再使用網路上那些大熱的範本,即使是你的託福老師教給你的範本也要謹慎使用,因為老師不僅只有你一個學生呀!他的範本也許已經教給了許多人,而這些學生的答卷已經被錄入到了ETS 的語料庫中。

那有的同學擔心,如果我有一套自己的體系,那麼在考試中可以重複使用嗎?會不會檢測出來我和自己上次考試的作文有高相似度?

雖然我們沒有得到 ETS 的官方消息,但我認為不會。這個高相似度,並不是大家理解的那樣:兩兩比對只要相似度達到 0.8 或 0.9 就是高相似度。是否相似需要經過嚴格的假設檢驗,需要將誤判率降到很低很低才可下結論。

千萬篇作文裡,僅僅是因為和 1 篇作文的相似度高,就一棒子打死,這個誤判率怕是要高到 50% 了吧?

同時也有同學擔心,像這種常用句子 "I hold the view that""from my perspective""all in all""for example" 等等,我使用了會被判為高相似度嗎?

持這種想法的同學我只能告訴你:“你想多了!”

大家都知道,論文查重的時候,連續 13 個字以上相同才會被認為雷同。檢測相似度是同樣的道理,只不過標準可能會更寬一點,只有大篇幅,成句成段地引用範本,才會判為高相似度。

所以,範本雖不能再使用,但大家也不用過度驚慌,弄得自己連話都不會說的。只要是自己的語言,自己的表達,在考試中都不會有問題。

作為一個經驗豐富的閱卷員,雖然從感情上,一看到套用範本的作答,印象就不是很好,很想給低分,但是評分規則告訴我,不能這麼做!要理性!

那麼,以國內某大型語言考試的閱卷經驗為例,介紹一些閱卷老師是怎麼給範本作文打分的(滿分 5 分為例):

1. 若範本內容與作文、口語話題完全無關,而且通篇除了範本,幾乎沒有自己的表達,那麼此類文章會給 1 分。

2. 若範本內容與作文、話題完全無關,但除了範本內容外,考生加入了自己的表達,而且比例較大,那麼就將範本內容視作“無效”,僅根據考生自己的回答內容來評分。

3. 若範本內容與作文、口語話題有關,那麼範本內容就視為“有效”,閱卷員需要根據學生的表達水準判分,但不能給高分。也就是說如果滿分為 5 分,一旦你用了範本,即使表達再好,最高也只能給你 3 分或者 2 分。

範本不僅僅包括寫作框架,還包括範本例子,以及閱讀題、聽力題的材料。判斷你是否是使用了範本,有時候並不需要機器,人工也可以做到。

當參考人數特別多時,耍小聰明的考生不止一個,而是成千上萬個,閱卷老師看個十幾二十篇就能發現了。

E-rater 評分變化了嗎?

根據考生的回饋資訊,我們猜測 ETS 已經不再寬容使用範本的行為。

那麼,e-rater 就是一個很好的檢測工具,利用它可以更準確地識別出使用了範本的作文,甚至查出使用了哪篇範本。

那麼 e-rater 對於範本作文是怎麼評分的?

對此,ETS 沒有公佈具體變化,但是我們猜測,也許是在原有評分標準的基礎上增加了限制。口語、作文評分不可能採取扣分制,但 e-rater 可以根據你的回答,以及範本占總篇幅的比例來適當限制你的作文得分。

關於 e-rater 的評分機制,我們在以前的文章中曾介紹過,不清楚的同學可以去看這篇文章:揭開託福寫作評分幕後黑手(e-rater)的神秘面紗

在這裡,大家簡要介紹一下 e-rater 的評分標準:

語法錯誤:動詞時態錯誤、代詞錯誤、所屬格錯誤、漏寫或錯寫單詞、句子不完整、不斷句、句子混亂、主謂不一致。

用法錯誤:冠詞錯誤、混淆詞義、詞形不正確、錯誤的比較級、不規範的動詞或詞語形式。

寫作規範問題:拼寫、首字母大小寫、數位規範、標點(缺少問號、缺少逗號、缺少句號、缺少連字號)、兩個單詞連寫、錯誤的合成詞、重複的詞。

語言風格問題:用詞反復、不合適的單詞或片語、太多句子以連詞開頭、太多短句子、太多冗餘的長句子、被動語態。

組織 (Organization) 和發展 (Development):可以簡單理解為篇章結構和詞彙豐富度

主題詞匯的使用:判斷內容是否與話題相關

其中,在第 7 項標準,主題詞匯的使用中,e-rater 就是通過將考生作文與作文語料庫中的文章比對來完成評分的,在這個時候,和語料庫中的高分作文相似度高可能是一件好事兒。

但從最近考生的回饋來看,ETS很可能又建立了一個用於查重的作文語料庫,這個庫中搜集了網路上的範本作文,以及歷次考試的考生答卷。將你的作文與庫中作文進行比對,一旦你的作文與多篇文章都有大面積的重複內容,那就足以說明你引用了範本。e-rater 很可能會限制你的分數上限,也就是說你即使你表達完美,無懈可擊,也只能拿到 3 分或更低。

範本還能不能用?

範本在備考初期還是很有用的。

因為英文寫作十分注重論述邏輯,而大家從小接受的中文寫作訓練更注重語言優美。所以,在備考初期,學習範本可以説明自己建立英文寫作的一般思路。但是在後期,大家就要通過自己的表達,來建立一套自己的體系。

而考試中,就不能再使用網路上那些大熱的範本,即使是你的託福老師教給你的範本也要謹慎使用,因為老師不僅只有你一個學生呀!他的範本也許已經教給了許多人,而這些學生的答卷已經被錄入到了ETS 的語料庫中。

那有的同學擔心,如果我有一套自己的體系,那麼在考試中可以重複使用嗎?會不會檢測出來我和自己上次考試的作文有高相似度?

雖然我們沒有得到 ETS 的官方消息,但我認為不會。這個高相似度,並不是大家理解的那樣:兩兩比對只要相似度達到 0.8 或 0.9 就是高相似度。是否相似需要經過嚴格的假設檢驗,需要將誤判率降到很低很低才可下結論。

千萬篇作文裡,僅僅是因為和 1 篇作文的相似度高,就一棒子打死,這個誤判率怕是要高到 50% 了吧?

同時也有同學擔心,像這種常用句子 "I hold the view that""from my perspective""all in all""for example" 等等,我使用了會被判為高相似度嗎?

持這種想法的同學我只能告訴你:“你想多了!”

大家都知道,論文查重的時候,連續 13 個字以上相同才會被認為雷同。檢測相似度是同樣的道理,只不過標準可能會更寬一點,只有大篇幅,成句成段地引用範本,才會判為高相似度。

所以,範本雖不能再使用,但大家也不用過度驚慌,弄得自己連話都不會說的。只要是自己的語言,自己的表達,在考試中都不會有問題。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示