大型标准化考试的算分理论

2026年2月2日 · 阅读需 7 分钟

我去年 12 月参加了日语 JLPT N1 的考试，三天前结果发榜了。我的成绩是：

文字·词汇·语法	60/60
阅读理解	60/60
听力理解	48/60
总分	168/180

虽然前两个部分我坚信自己错了不少题（至少 6~8 题吧），但是因为 JLPT 的评分标准，我居然都得了满分 🥳 那么今天就来介绍一下包括 JLPT、TOEFL、GRE 在内的绝大多数大型标准化考试都在使用的，~~能把错题都算成正确的~~评分机制吧。

分数就是能力吗

一般考试的评分机制大概都长成这样：

第一大题，每小问 2 分；
第二大题，每小问 3 分；
第三大题，每小问 5 分；
第四大题，总分 10 分；

然后把正确题目的得分加起来，就是你的总分。不过，这样只能算出你在这次考试中的分数，那么你的能力值到底是多少呢？

你也许会觉得这不是废话吗？分数是多少，能力就是多高啊！

如果这样想的话，背后的推导逻辑就是「考试分数➡️个人能力」。但事实上的因果关系应该是「个人能力➡️考试分数」吧！这就是项目反应理论（Item Response Theory）的逻辑：

考试的答题反应（Response）是个人能力值（一个「在你身上的虚拟数值」）产生的一个结果。一个人的能力值越高，就越不可能在简单的题目上犯错，同时也越可能正确解答困难的问题。

根据你每道题的回答，我们可以试图算凑出一个能力值，最能够解释整张答卷的对错分布。这就是许多大型标准化考试使用的评分机制。

贝叶斯推理

顺便提一提，这种遵循因果关系，从结果来反推出原因的统计方法，叫做贝叶斯推理（Bayesian inference）。贝叶斯（Thomas Bayes）毫无悬念是统计学中最重要的人名。

为什么要强调「大型」呢？因为每一道题的难度在考试前其实很难客观估算，经常会有「这一年题出得太简单，那一年题目爆难」这样的现象。最好的估计方法，就是从全部的答卷中统计出每道题实际的「难度曲线」（学术名称「项目特征曲线」，即能力值对应的答对概率）。如果考试不够「大型」，考生人数太少的话，这种测量题目难度的方式就可能不够准确。

一个具体的例子

假设，一个英语能力测试有四道选择题：

英文字母表中第一个字母是 (A/B/C/D)
large 意思 (big/small/tall/short)
If I (am/be/was/were) you, I would choose neither.
elaborate 的反义词是 (equivocate/exacerbate/exonerate/enervate)

假设整个测试的满分是 10 分，四题全部答错得 0/10，四题全部答对得 10/10。这两个结果没有悬念。

但如果没有全部答对呢？这时候就要区分两种情况：

一个能力值很高的人，犯了低级错误；
一个能力值很低的人，沾了狗屎运；

假设有一个人回答对了第一题，但是 2~4 全错。那么最有可能的解释是「此人能力值很低，只知道字母表」，因此得分可能是 1/10。

那如果他只回答对了最后一题，1~3 全错呢？用数理统计的方式很快可以得出「最有可能的解释是此人狗屎运蒙对最后一题，实际上却连字母表都不识」，他的得分几乎肯定是 0/10。

你看，第二个人答对了一道最难的题，得分却比答对最简单的题目的人还要低！这很符合逻辑，但是用传统的算分方法是不可能得出这种结果的。

这种算分方式甚至还可能逆转评分标准。比如上面的第三题，现在一半以上的文盲美国人¹都不知道虚拟语态（subjunctive mood）的语法，所以这题的回答很可能出现「错误回答反超正确答案」的情况。根据不同语言考试的标准，这样的现象甚至可能会推翻题目本身，导致答错不扣分。

应试技巧

IRT 算分机制非常复杂，一般先从全体答卷中统计出每道题的响应曲线，再通过响应曲线计算出每个考生的能力值，然后还要回过头去验证计算出的能力值分布是否与历年的分布一致，再作调整。反反复复好几轮计算调整后，才能得出最为准确的结果。

所以，答对某题对于分数的影响变得非常不好预测。也许一题之差，就能让你从「好像很强，只是运气差了点」变成「好像很弱，只是运气好了点」，分数也随之天差地别。不过 IRT 的目的和大多数时候的效果帮助了「能力强但稍微粗心」的学生获得更高的成绩。

如果你能够安排自己的注意力，或者改变解题顺序，做到在你认为简单的题目上千万不要失误，这是应对 IRT 评分标准最最重要的策略。

一旦简单题目上连续出错，模型的预测就会倾向于认为难题的正确都是偶然——这就需要难题连续答对才能排除这种猜疑。相反，对于自己很没有把握的难题，千万不要浪费时间，乱猜一个答案可能都不会失分。

自我感想

看见自己文法和阅读双满分的时候，简直不敢相信！好高兴啊！都快四十岁的大叔，找回了初中生期末考试考满分的感觉，哈哈。

听力才 48/60，比预期要低了一些，心里有点点不服气 🫤 不过 IRT 帮我拿了两个满分，只拉低了其中一个，我已经很满足啦～

因为得到了 142+ 的优秀成绩（CEFR 语言能力评级达到了 JLPT 最高能认证的 C1），我的 JLPT 之路就算一步登天式的圆满完结！自己给自己半年来的辛苦学习撒个花～

这不是我随口瞎说的——有权威统计显示，54% 的美国成年人口没有达到小学六年级的读写水平要求。https://www.thenationalliteracyinstitute.com/2024-2025-literacy-statistics ↩

分数就是能力吗​

一个具体的例子​

应试技巧​

Footnotes​

分数就是能力吗

一个具体的例子

应试技巧

Footnotes