闢謠：ETS出臺反作弊新規？海量考生被判作弊？別再瞎傳謠言了！

聽說最近ETS出臺了新的反作弊新規，就為了甄別雷同作文？考生在寫作文的時候只要一用模版就會被判作弊？很多同學都慌了...小編告訴你，不慌！趕緊來看看到底怎麼回事～

消息從哪裡來？

事件起源于一些考生的回饋，說自己兩次考試用了同一篇範本，結果第一次是 good，而第二次被判了 limited 。或者是由於使用了範本，小作文是 good，而獨立寫作是 limited 等情況。

由於回饋的人數較多，一些機構推斷，是 ETS 修改了 e-rater 的評分標準，收緊了對範本的容忍度，對使用範本的作文更加嚴厲了。

推論到此還是比較靠譜的。畢竟，背範本並不能反映出真實的語言水準。 ETS 為了能夠保證考試的公平與科學性，嚴厲對待範本作文是很有可能的。

可是接下來，推論就開始走偏了：使用範本會被判作弊？

這未免有些危言聳聽。畢竟根據目前考生回饋的資訊，大家都是因為使用範本而被判了低分，

並沒有人得到 hold 的結果。而且作弊甄別與評分完全是兩個機制，修改 e-rater，並不影響作弊甄別的機制。否則，讓 e-rater 又評分，又反作弊，簡直是虐待 AI 啊。

既沒有官方聲明，也沒有足夠的證據支撐，我們可以認為， “使用範本被判作弊”完全是不靠譜的標題黨！

不過，這也反映出了一個問題：

大家對於考試技術是真的不瞭解！

那麼今天我們就來科普一下！

考試機構是如何反作弊的？

在口語、作文評分中

閱卷老師對待範本作文又會如何處理呢？

▼

雖然 ETS並未公開公佈甄別做法以及評分的具體流程，但目前大型考試均是標準化考試，一些做法都很相似。在此，結合老師歷次參與大型國內考試經驗，和大家談談考試常見評分與作弊甄別的方法。

作弊甄別的常用手段

通常情況下，我們常說的作弊可能包括兩方面，一種是抄襲，另一種是泄題。所以，通過統計手段可以甄別出的是抄襲這種情況，俗稱雷同答卷。

判斷兩個考生的答卷是否雷同，需要算出許多統計指標，這些指標有的基於選同數（選擇一致的題目數量），

有的是基於錯同數（答錯且一致的題目數量）。

當這些指標達到某一臨界值的時候，就判定這兩個考生回答是雷同的。當然如果只靠 1 個指標就判定雷同，誤判的可能性太大了，因此一般會綜合參考多項指標，找出在這多項指標上均超出臨界值的考生組合。

通過這樣的判斷方法，誤判的可能性會被降低到 10-17，比中大樂透還難。

當然上面說的是客觀題的甄別方法，主觀題（如作文、口語、回答問題）雷同卷的甄別方法主要是通過文本間的相似程度。可是主觀題的作弊甄別誤判的可能性太大了，如套範本、抄題乾等行為都會被檢測出來。

而這些行為只能說是消極或投機的答題方式，並不是實際的作弊行為。

因此在學術界，主觀題雷同甄別的主要困難就是如何把這些情況排除掉，以免誤傷考生。

敲黑板，劃重點！研究人員們都在想方設法把這些情況摘出去，又怎麼會不分青紅皂白，只因你使用了範本就給你判作弊呢？

口語/作文閱卷如何對待範本？

作為一個經驗豐富的閱卷員，雖然從感情上，一看到套用範本的作答，印象就不是很好，很想給低分，但是評分規則告訴我，不能這麼做！要理性！

那麼，以國內某大型語言考試的閱卷經驗為例，介紹一些閱卷老師是怎麼給範本作文打分的（滿分 5 分為例）：

1. 若範本內容與作文、口語話題完全無關，而且通篇除了範本，幾乎沒有自己的表達，那麼此類文章會給 1 分。

2. 若範本內容與作文、話題完全無關，但除了範本內容外，考生加入了自己的表達，而且比例較大，那麼就將範本內容視作“無效”，僅根據考生自己的回答內容來評分。

3. 若範本內容與作文、口語話題有關，那麼範本內容就視為“有效”，閱卷員需要根據學生的表達水準判分，但不能給高分。也就是說如果滿分為 5 分，一旦你用了範本，即使表達再好，最高也只能給你 3 分或者 2 分。

範本不僅僅包括寫作框架，還包括範本例子，以及閱讀題、聽力題的材料。判斷你是否是使用了範本，有時候並不需要機器，人工也可以做到。

當參考人數特別多時，耍小聰明的考生不止一個，而是成千上萬個，閱卷老師看個十幾二十篇就能發現了。

E-rater 評分變化了嗎？

根據考生的回饋資訊，我們猜測 ETS 已經不再寬容使用範本的行為。

那麼，e-rater 就是一個很好的檢測工具，利用它可以更準確地識別出使用了範本的作文，甚至查出使用了哪篇範本。

那麼 e-rater 對於範本作文是怎麼評分的？

對此，ETS 沒有公佈具體變化，但是我們猜測，也許是在原有評分標準的基礎上增加了限制。口語、作文評分不可能採取扣分制，但 e-rater 可以根據你的回答，以及範本占總篇幅的比例來適當限制你的作文得分。

關於 e-rater 的評分機制，我們在以前的文章中曾介紹過，不清楚的同學可以去看這篇文章：揭開託福寫作評分幕後黑手（e-rater）的神秘面紗

在這裡，大家簡要介紹一下 e-rater 的評分標準：

語法錯誤：動詞時態錯誤、代詞錯誤、所屬格錯誤、漏寫或錯寫單詞、句子不完整、不斷句、句子混亂、主謂不一致。

用法錯誤：冠詞錯誤、混淆詞義、詞形不正確、錯誤的比較級、不規範的動詞或詞語形式。

寫作規範問題：拼寫、首字母大小寫、數位規範、標點（缺少問號、缺少逗號、缺少句號、缺少連字號）、兩個單詞連寫、錯誤的合成詞、重複的詞。

語言風格問題：用詞反復、不合適的單詞或片語、太多句子以連詞開頭、太多短句子、太多冗餘的長句子、被動語態。

組織 (Organization) 和發展 (Development)：可以簡單理解為篇章結構和詞彙豐富度

主題詞匯的使用：判斷內容是否與話題相關

其中，在第 7 項標準，主題詞匯的使用中，e-rater 就是通過將考生作文與作文語料庫中的文章比對來完成評分的，在這個時候，和語料庫中的高分作文相似度高可能是一件好事兒。

但從最近考生的回饋來看，ETS很可能又建立了一個用於查重的作文語料庫，這個庫中搜集了網路上的範本作文，以及歷次考試的考生答卷。將你的作文與庫中作文進行比對，一旦你的作文與多篇文章都有大面積的重複內容，那就足以說明你引用了範本。e-rater 很可能會限制你的分數上限，也就是說你即使你表達完美，無懈可擊，也只能拿到 3 分或更低。

範本還能不能用？

範本在備考初期還是很有用的。

因為英文寫作十分注重論述邏輯，而大家從小接受的中文寫作訓練更注重語言優美。所以，在備考初期，學習範本可以説明自己建立英文寫作的一般思路。但是在後期，大家就要通過自己的表達，來建立一套自己的體系。

而考試中，就不能再使用網路上那些大熱的範本，即使是你的託福老師教給你的範本也要謹慎使用，因為老師不僅只有你一個學生呀！他的範本也許已經教給了許多人，而這些學生的答卷已經被錄入到了ETS 的語料庫中。

那有的同學擔心，如果我有一套自己的體系，那麼在考試中可以重複使用嗎？會不會檢測出來我和自己上次考試的作文有高相似度？

雖然我們沒有得到 ETS 的官方消息，但我認為不會。這個高相似度，並不是大家理解的那樣：兩兩比對只要相似度達到 0.8 或 0.9 就是高相似度。是否相似需要經過嚴格的假設檢驗，需要將誤判率降到很低很低才可下結論。

千萬篇作文裡，僅僅是因為和 1 篇作文的相似度高，就一棒子打死，這個誤判率怕是要高到 50% 了吧？

同時也有同學擔心，像這種常用句子 "I hold the view that""from my perspective""all in all""for example" 等等，我使用了會被判為高相似度嗎？

持這種想法的同學我只能告訴你：“你想多了！”

大家都知道，論文查重的時候，連續 13 個字以上相同才會被認為雷同。檢測相似度是同樣的道理，只不過標準可能會更寬一點，只有大篇幅，成句成段地引用範本，才會判為高相似度。

所以，範本雖不能再使用，但大家也不用過度驚慌，弄得自己連話都不會說的。只要是自己的語言，自己的表達，在考試中都不會有問題。