跳到主要内容

大型标准化考试的算分理论

· 阅读需 7 分钟

我去年 12 月参加了日语 JLPT N1 的考试,三天前结果发榜了。我的成绩是:

文字·词汇·语法60/60
阅读理解60/60
听力理解48/60
总分168/180

虽然前两个部分我坚信自己错了不少题(至少 6~8 题吧),但是因为 JLPT 的评分标准,我居然都得了满分 🥳 那么今天就来介绍一下包括 JLPT、TOEFL、GRE 在内的绝大多数大型标准化考试都在使用的,能把错题都算成正确的评分机制吧。

分数就是能力吗

一般考试的评分机制大概都长成这样:

  • 第一大题,每小问 2 分;
  • 第二大题,每小问 3 分;
  • 第三大题,每小问 5 分;
  • 第四大题,总分 10 分;

然后把正确题目的得分加起来,就是你的总分。不过,这样只能算出你在这次考试中的分数,那么你的能力值到底是多少呢?

你也许会觉得这不是废话吗?分数是多少,能力就是多高啊!

如果这样想的话,背后的推导逻辑就是「考试分数➡️个人能力」。但事实上的因果关系应该是「个人能力➡️考试分数」吧!这就是项目反应理论(Item Response Theory)的逻辑:

考试的答题反应(Response)是个人能力值(一个「在你身上的虚拟数值」)产生的一个结果。一个人的能力值越高,就越不可能在简单的题目上犯错,同时也越可能正确解答困难的问题。

根据你每道题的回答,我们可以试图算凑出一个能力值,最能够解释整张答卷的对错分布。这就是许多大型标准化考试使用的评分机制。

贝叶斯推理

顺便提一提,这种遵循因果关系,从结果来反推出原因的统计方法,叫做贝叶斯推理(Bayesian inference)贝叶斯(Thomas Bayes)毫无悬念是统计学中最重要的人名。

为什么要强调「大型」呢?因为每一道题的难度在考试前其实很难客观估算,经常会有「这一年题出得太简单,那一年题目爆难」这样的现象。最好的估计方法,就是从全部的答卷中统计出每道题实际的「难度曲线」(学术名称「项目特征曲线」,即能力值对应的答对概率)。如果考试不够「大型」,考生人数太少的话,这种测量题目难度的方式就可能不够准确。

一个具体的例子

假设,一个英语能力测试有四道选择题:

  • 英文字母表中第一个字母是 (A/B/C/D)
  • large 意思 (big/small/tall/short)
  • If I (am/be/was/were) you, I would choose neither.
  • elaborate 的反义词是 (equivocate/exacerbate/exonerate/enervate)

假设整个测试的满分是 10 分,四题全部答错得 0/10,四题全部答对得 10/10。这两个结果没有悬念。

但如果没有全部答对呢?这时候就要区分两种情况:

  • 一个能力值很高的人,犯了低级错误;
  • 一个能力值很低的人,沾了狗屎运;

假设有一个人回答对了第一题,但是 2~4 全错。那么最有可能的解释是「此人能力值很低,只知道字母表」,因此得分可能是 1/10。

那如果他只回答对了最后一题,1~3 全错呢?用数理统计的方式很快可以得出「最有可能的解释是此人狗屎运蒙对最后一题,实际上却连字母表都不识」,他的得分几乎肯定是 0/10。

你看,第二个人答对了一道最难的题,得分却比答对最简单的题目的人还要低!这很符合逻辑,但是用传统的算分方法是不可能得出这种结果的。

这种算分方式甚至还可能逆转评分标准。比如上面的第三题,现在一半以上的文盲美国人1都不知道虚拟语态(subjunctive mood)的语法,所以这题的回答很可能出现「错误回答反超正确答案」的情况。根据不同语言考试的标准,这样的现象甚至可能会推翻题目本身,导致答错不扣分。

应试技巧

IRT 算分机制非常复杂,一般先从全体答卷中统计出每道题的响应曲线,再通过响应曲线计算出每个考生的能力值,然后还要回过头去验证计算出的能力值分布是否与历年的分布一致,再作调整。反反复复好几轮计算调整后,才能得出最为准确的结果。

所以,答对某题对于分数的影响变得非常不好预测。也许一题之差,就能让你从「好像很强,只是运气差了点」变成「好像很弱,只是运气好了点」,分数也随之天差地别。不过 IRT 的目的和大多数时候的效果帮助了「能力强但稍微粗心」的学生获得更高的成绩。

如果你能够安排自己的注意力,或者改变解题顺序,做到在你认为简单的题目上千万不要失误,这是应对 IRT 评分标准最最重要的策略

一旦简单题目上连续出错,模型的预测就会倾向于认为难题的正确都是偶然——这就需要难题连续答对才能排除这种猜疑。相反,对于自己很没有把握的难题,千万不要浪费时间,乱猜一个答案可能都不会失分

自我感想

看见自己文法和阅读双满分的时候,简直不敢相信!好高兴啊!都快四十岁的大叔,找回了初中生期末考试考满分的感觉,哈哈。

听力才 48/60,比预期要低了一些,心里有点点不服气 🫤 不过 IRT 帮我拿了两个满分,只拉低了其中一个,我已经很满足啦~

因为得到了 142+ 的优秀成绩(CEFR 语言能力评级达到了 JLPT 最高能认证的 C1),我的 JLPT 之路就算一步登天式的圆满完结!自己给自己半年来的辛苦学习撒个花~

Footnotes

  1. 这不是我随口瞎说的——有权威统计显示,54% 的美国成年人口没有达到小学六年级的读写水平要求。https://www.thenationalliteracyinstitute.com/2024-2025-literacy-statistics