聽說最近ETS出臺了新的反作弊新規, 就為了甄別雷同作文?考生在寫作文的時候只要一用模版就會被判作弊?很多同學都慌了...小編告訴你, 不慌!趕緊來看看到底怎麼回事~
消息從哪裡來?
事件起源于一些考生的回饋, 說自己兩次考試用了同一篇範本, 結果第一次是 good, 而第二次被判了 limited 。 或者是由於使用了範本, 小作文是 good, 而獨立寫作是 limited 等情況。
由於回饋的人數較多, 一些機構推斷, 是 ETS 修改了 e-rater 的評分標準, 收緊了對範本的容忍度, 對使用範本的作文更加嚴厲了。
推論到此還是比較靠譜的。 畢竟, 背範本並不能反映出真實的語言水準。 ETS 為了能夠保證考試的公平與科學性, 嚴厲對待範本作文是很有可能的。
可是接下來, 推論就開始走偏了:使用範本會被判作弊?
這未免有些危言聳聽。 畢竟根據目前考生回饋的資訊, 大家都是因為使用範本而被判了低分,
既沒有官方聲明, 也沒有足夠的證據支撐, 我們可以認為, “使用範本被判作弊”完全是不靠譜的標題黨!
不過, 這也反映出了一個問題:
大家對於考試技術是真的不瞭解!
那麼今天我們就來科普一下!
考試機構是如何反作弊的?
在口語、作文評分中
閱卷老師對待範本作文又會如何處理呢?
▼
雖然 ETS並未公開公佈甄別做法以及評分的具體流程, 但目前大型考試均是標準化考試, 一些做法都很相似。 在此, 結合老師歷次參與大型國內考試經驗, 和大家談談考試常見評分與作弊甄別的方法。
作弊甄別的常用手段
通常情況下, 我們常說的作弊可能包括兩方面, 一種是抄襲, 另一種是泄題。 所以, 通過統計手段可以甄別出的是抄襲這種情況, 俗稱雷同答卷。
判斷兩個考生的答卷是否雷同, 需要算出許多統計指標, 這些指標有的基於選同數(選擇一致的題目數量),
當這些指標達到某一臨界值的時候, 就判定這兩個考生回答是雷同的。 當然如果只靠 1 個指標就判定雷同, 誤判的可能性太大了, 因此一般會綜合參考多項指標, 找出在這多項指標上均超出臨界值的考生組合。
通過這樣的判斷方法, 誤判的可能性會被降低到 10-17, 比中大樂透還難。
當然上面說的是客觀題的甄別方法, 主觀題(如作文、口語、回答問題)雷同卷的甄別方法主要是通過文本間的相似程度。 可是主觀題的作弊甄別誤判的可能性太大了, 如套範本、抄題乾等行為都會被檢測出來。
而這些行為只能說是消極或投機的答題方式, 並不是實際的作弊行為。
敲黑板, 劃重點!研究人員們都在想方設法把這些情況摘出去, 又怎麼會不分青紅皂白, 只因你使用了範本就給你判作弊呢?
口語/作文閱卷如何對待範本?
作為一個經驗豐富的閱卷員,雖然從感情上,一看到套用範本的作答,印象就不是很好,很想給低分,但是評分規則告訴我,不能這麼做!要理性!
那麼,以國內某大型語言考試的閱卷經驗為例,介紹一些閱卷老師是怎麼給範本作文打分的(滿分 5 分為例):
1. 若範本內容與作文、口語話題完全無關,而且通篇除了範本,幾乎沒有自己的表達,那麼此類文章會給 1 分。
2. 若範本內容與作文、話題完全無關,但除了範本內容外,考生加入了自己的表達,而且比例較大,那麼就將範本內容視作“無效”,僅根據考生自己的回答內容來評分。
3. 若範本內容與作文、口語話題有關,那麼範本內容就視為“有效”,閱卷員需要根據學生的表達水準判分,但不能給高分。也就是說如果滿分為 5 分,一旦你用了範本,即使表達再好,最高也只能給你 3 分或者 2 分。
範本不僅僅包括寫作框架,還包括範本例子,以及閱讀題、聽力題的材料。判斷你是否是使用了範本,有時候並不需要機器,人工也可以做到。
當參考人數特別多時,耍小聰明的考生不止一個,而是成千上萬個,閱卷老師看個十幾二十篇就能發現了。
E-rater 評分變化了嗎?
根據考生的回饋資訊,我們猜測 ETS 已經不再寬容使用範本的行為。
那麼,e-rater 就是一個很好的檢測工具,利用它可以更準確地識別出使用了範本的作文,甚至查出使用了哪篇範本。
那麼 e-rater 對於範本作文是怎麼評分的?
對此,ETS 沒有公佈具體變化,但是我們猜測,也許是在原有評分標準的基礎上增加了限制。口語、作文評分不可能採取扣分制,但 e-rater 可以根據你的回答,以及範本占總篇幅的比例來適當限制你的作文得分。
關於 e-rater 的評分機制,我們在以前的文章中曾介紹過,不清楚的同學可以去看這篇文章:揭開託福寫作評分幕後黑手(e-rater)的神秘面紗
在這裡,大家簡要介紹一下 e-rater 的評分標準:
語法錯誤:動詞時態錯誤、代詞錯誤、所屬格錯誤、漏寫或錯寫單詞、句子不完整、不斷句、句子混亂、主謂不一致。
用法錯誤:冠詞錯誤、混淆詞義、詞形不正確、錯誤的比較級、不規範的動詞或詞語形式。
寫作規範問題:拼寫、首字母大小寫、數位規範、標點(缺少問號、缺少逗號、缺少句號、缺少連字號)、兩個單詞連寫、錯誤的合成詞、重複的詞。
語言風格問題:用詞反復、不合適的單詞或片語、太多句子以連詞開頭、太多短句子、太多冗餘的長句子、被動語態。
組織 (Organization) 和發展 (Development):可以簡單理解為篇章結構和詞彙豐富度
主題詞匯的使用:判斷內容是否與話題相關
其中,在第 7 項標準,主題詞匯的使用中,e-rater 就是通過將考生作文與作文語料庫中的文章比對來完成評分的,在這個時候,和語料庫中的高分作文相似度高可能是一件好事兒。
但從最近考生的回饋來看,ETS很可能又建立了一個用於查重的作文語料庫,這個庫中搜集了網路上的範本作文,以及歷次考試的考生答卷。將你的作文與庫中作文進行比對,一旦你的作文與多篇文章都有大面積的重複內容,那就足以說明你引用了範本。e-rater 很可能會限制你的分數上限,也就是說你即使你表達完美,無懈可擊,也只能拿到 3 分或更低。
範本還能不能用?
範本在備考初期還是很有用的。
因為英文寫作十分注重論述邏輯,而大家從小接受的中文寫作訓練更注重語言優美。所以,在備考初期,學習範本可以説明自己建立英文寫作的一般思路。但是在後期,大家就要通過自己的表達,來建立一套自己的體系。
而考試中,就不能再使用網路上那些大熱的範本,即使是你的託福老師教給你的範本也要謹慎使用,因為老師不僅只有你一個學生呀!他的範本也許已經教給了許多人,而這些學生的答卷已經被錄入到了ETS 的語料庫中。
那有的同學擔心,如果我有一套自己的體系,那麼在考試中可以重複使用嗎?會不會檢測出來我和自己上次考試的作文有高相似度?
雖然我們沒有得到 ETS 的官方消息,但我認為不會。這個高相似度,並不是大家理解的那樣:兩兩比對只要相似度達到 0.8 或 0.9 就是高相似度。是否相似需要經過嚴格的假設檢驗,需要將誤判率降到很低很低才可下結論。
千萬篇作文裡,僅僅是因為和 1 篇作文的相似度高,就一棒子打死,這個誤判率怕是要高到 50% 了吧?
同時也有同學擔心,像這種常用句子 "I hold the view that""from my perspective""all in all""for example" 等等,我使用了會被判為高相似度嗎?
持這種想法的同學我只能告訴你:“你想多了!”
大家都知道,論文查重的時候,連續 13 個字以上相同才會被認為雷同。檢測相似度是同樣的道理,只不過標準可能會更寬一點,只有大篇幅,成句成段地引用範本,才會判為高相似度。
所以,範本雖不能再使用,但大家也不用過度驚慌,弄得自己連話都不會說的。只要是自己的語言,自己的表達,在考試中都不會有問題。
作為一個經驗豐富的閱卷員,雖然從感情上,一看到套用範本的作答,印象就不是很好,很想給低分,但是評分規則告訴我,不能這麼做!要理性!
那麼,以國內某大型語言考試的閱卷經驗為例,介紹一些閱卷老師是怎麼給範本作文打分的(滿分 5 分為例):
1. 若範本內容與作文、口語話題完全無關,而且通篇除了範本,幾乎沒有自己的表達,那麼此類文章會給 1 分。
2. 若範本內容與作文、話題完全無關,但除了範本內容外,考生加入了自己的表達,而且比例較大,那麼就將範本內容視作“無效”,僅根據考生自己的回答內容來評分。
3. 若範本內容與作文、口語話題有關,那麼範本內容就視為“有效”,閱卷員需要根據學生的表達水準判分,但不能給高分。也就是說如果滿分為 5 分,一旦你用了範本,即使表達再好,最高也只能給你 3 分或者 2 分。
範本不僅僅包括寫作框架,還包括範本例子,以及閱讀題、聽力題的材料。判斷你是否是使用了範本,有時候並不需要機器,人工也可以做到。
當參考人數特別多時,耍小聰明的考生不止一個,而是成千上萬個,閱卷老師看個十幾二十篇就能發現了。
E-rater 評分變化了嗎?
根據考生的回饋資訊,我們猜測 ETS 已經不再寬容使用範本的行為。
那麼,e-rater 就是一個很好的檢測工具,利用它可以更準確地識別出使用了範本的作文,甚至查出使用了哪篇範本。
那麼 e-rater 對於範本作文是怎麼評分的?
對此,ETS 沒有公佈具體變化,但是我們猜測,也許是在原有評分標準的基礎上增加了限制。口語、作文評分不可能採取扣分制,但 e-rater 可以根據你的回答,以及範本占總篇幅的比例來適當限制你的作文得分。
關於 e-rater 的評分機制,我們在以前的文章中曾介紹過,不清楚的同學可以去看這篇文章:揭開託福寫作評分幕後黑手(e-rater)的神秘面紗
在這裡,大家簡要介紹一下 e-rater 的評分標準:
語法錯誤:動詞時態錯誤、代詞錯誤、所屬格錯誤、漏寫或錯寫單詞、句子不完整、不斷句、句子混亂、主謂不一致。
用法錯誤:冠詞錯誤、混淆詞義、詞形不正確、錯誤的比較級、不規範的動詞或詞語形式。
寫作規範問題:拼寫、首字母大小寫、數位規範、標點(缺少問號、缺少逗號、缺少句號、缺少連字號)、兩個單詞連寫、錯誤的合成詞、重複的詞。
語言風格問題:用詞反復、不合適的單詞或片語、太多句子以連詞開頭、太多短句子、太多冗餘的長句子、被動語態。
組織 (Organization) 和發展 (Development):可以簡單理解為篇章結構和詞彙豐富度
主題詞匯的使用:判斷內容是否與話題相關
其中,在第 7 項標準,主題詞匯的使用中,e-rater 就是通過將考生作文與作文語料庫中的文章比對來完成評分的,在這個時候,和語料庫中的高分作文相似度高可能是一件好事兒。
但從最近考生的回饋來看,ETS很可能又建立了一個用於查重的作文語料庫,這個庫中搜集了網路上的範本作文,以及歷次考試的考生答卷。將你的作文與庫中作文進行比對,一旦你的作文與多篇文章都有大面積的重複內容,那就足以說明你引用了範本。e-rater 很可能會限制你的分數上限,也就是說你即使你表達完美,無懈可擊,也只能拿到 3 分或更低。
範本還能不能用?
範本在備考初期還是很有用的。
因為英文寫作十分注重論述邏輯,而大家從小接受的中文寫作訓練更注重語言優美。所以,在備考初期,學習範本可以説明自己建立英文寫作的一般思路。但是在後期,大家就要通過自己的表達,來建立一套自己的體系。
而考試中,就不能再使用網路上那些大熱的範本,即使是你的託福老師教給你的範本也要謹慎使用,因為老師不僅只有你一個學生呀!他的範本也許已經教給了許多人,而這些學生的答卷已經被錄入到了ETS 的語料庫中。
那有的同學擔心,如果我有一套自己的體系,那麼在考試中可以重複使用嗎?會不會檢測出來我和自己上次考試的作文有高相似度?
雖然我們沒有得到 ETS 的官方消息,但我認為不會。這個高相似度,並不是大家理解的那樣:兩兩比對只要相似度達到 0.8 或 0.9 就是高相似度。是否相似需要經過嚴格的假設檢驗,需要將誤判率降到很低很低才可下結論。
千萬篇作文裡,僅僅是因為和 1 篇作文的相似度高,就一棒子打死,這個誤判率怕是要高到 50% 了吧?
同時也有同學擔心,像這種常用句子 "I hold the view that""from my perspective""all in all""for example" 等等,我使用了會被判為高相似度嗎?
持這種想法的同學我只能告訴你:“你想多了!”
大家都知道,論文查重的時候,連續 13 個字以上相同才會被認為雷同。檢測相似度是同樣的道理,只不過標準可能會更寬一點,只有大篇幅,成句成段地引用範本,才會判為高相似度。
所以,範本雖不能再使用,但大家也不用過度驚慌,弄得自己連話都不會說的。只要是自己的語言,自己的表達,在考試中都不會有問題。