VAR-MATH: 把数字变为A来考验LLM理解能力

作者: Jian Yao (我), Ran Cheng, Kay Chen Tan 机构: 香港理工大学数据科学与人工智能学系

引言:当模型“学会”数学,我们该如何相信它?

大家好,我是姚建。在人工智能的浪潮中,我们见证了大型语言模型(LLM)在数学推理领域取得的惊人成就。像OpenAI、DeepSeek等顶尖模型,在各种公开的数学基准测试中屡创佳绩,似乎已经敲开了通往通用人工智能的大门。这背后,强化学习(RL)功不可没,它像一位严格的教练,不断“调教”模型,使其输出更符合我们期望的推理过程。

然而,就在我们为之振奋时,一些令人不安的现象浮出水面。有研究发现,即使给模型错误的“奖励信号”——比如,无论答案对错,只要格式正确就给高分,甚至用随机、颠倒的奖励去训练——模型的测试分数依然能提升。这就像一个学生,不靠理解知识,而是通过研究卷面整洁度、答题卡格式,甚至瞎猜,也能在考试中拿到不错的分数。这就引出了一个直击灵魂的问题:我们引以为傲的这些模型,是真的学会了“推理”,还是仅仅“过拟合”了特定考试的套路?

这个问题让我和我的团队夜不能寐。我们意识到,当前的评测体系可能存在两个致命缺陷:

  1. 基准污染 (Benchmark Contamination): 很多测试题都来自公开的数学竞赛,它们很可能早已存在于模型的训练数据中。模型可能只是“背”下了答案,而不是现场解题。这就像开卷考试,无法衡量真实水平。
  2. 评测脆弱性 (Evaluation Fragility): 传统的评测方式是“一题定胜负”。模型可能靠蒙、靠猜,或者利用一些浅层的统计规律答对某一道题。这种偶然性让我们很难判断它是否真的掌握了解决这类问题的方法。

为了刺破这层“虚假繁荣”的泡沫,我们必须设计一种全新的、更严格、更聪明的评测方式。于是,VAR-MATH 框架应运而生。它的核心思想简单而深刻:如果一个模型真正理解了一个数学问题,那么它不仅应该能解决这一个实例,还应该能解决所有结构相同、仅仅是数值不同的“变体”问题。 这,才是通往真正“理解”的必经之路。

VAR-MATH的核心:从“解一题”到“通一类”

想象一下,我们不再问模型“计算 $| |x|-1| + | |y|-1| \le 1$ 所定义的面积”,这是一个固定的问题,答案是固定的8。模型可能早就“背”熟了。

取而代之,我们用一个“符号化模板”来提问:“计算 $| |x|-a| + | |y|-a| \le a$ 所定义的面积”,其中 $a$ 是一个变量。然后,我们随机抽取一系列 $a$ 的值(比如 $a=2, a=5, a=10$),生成一串新问题,并要求模型全部答对。只有这样,我们才承认它“学会”了这个问题。

这种从“数值问题”到“符号模板”的转变,我们称之为“符号化可变” (Symbolic Variabilization)。这就像教一个孩子学加法,我们不会只教他 $2+3=5$,而是教他 $x+y$ 的概念,然后用不同的数字去检验他是否真的懂了。VAR-MATH正是这样一位严格的老师,它通过多实例验证,迫使模型展现出推理的一致性 (Reasoning Consistency)

动画一:VAR-MATH 的核心理念

类比:从死记硬背“苹果+苹果=2个苹果”,到理解“X + X = 2X”的抽象概念。拖动下面的滑块,改变参数 `a` 的值,看看问题是如何“活”起来的!

问题:

正确答案:

惊人的发现:当“学霸”遇到“变体”考题

我们将这种新方法应用到了两个广受欢迎的数学基准——AMC23和AIME24上,创造了它们的“可变”版本:VAR-AMC23和VAR-AIME24。然后,我们让那些在原版测试中表现优异的强化学习模型来挑战这些新考题。结果,令人震惊。

许多7B(70亿参数)级别的模型,在原版测试中可能拿到70-80分的好成绩,但在VAR-MATH的严格审视下,分数出现了断崖式下跌,平均下降了48%之多!这说明,它们之前的成功,很大程度上依赖于对特定数值和问题形式的“记忆”,而非真正的、可泛化的推理能力。

动画二:脆弱的泛化能力

这个动画模拟了一个在标准测试中表现良好的模型,当它面对5个结构相同但数值不同的变体问题时的表现。在VAR-MATH的“全有或全无”评分下,只要错一题,该题组就得0分。

测试状态: 待开始

最终得分: --

即使是更大规模的32B模型,虽然整体表现更好,但同样未能幸免,在变体测试中也出现了超过40%的性能下降。这告诉我们,仅仅增大模型规模,并不能从根本上解决推理能力的一致性问题。

当然,最前沿的“巨无霸”模型,如DeepSeek-R1,表现出了更强的稳健性,性能下降幅度要小得多。这得益于它们更高质量的训练数据和更先进的对齐技术。但即便如此,它们在处理更复杂的代数或逻辑问题变体时,依然会“翻车”。这恰恰证明了VAR-MATH作为一个“照妖镜”的价值——它能精准地探测出即便是最强模型在推理泛化能力上的短板。

拨开迷雾:性能下降的根源是什么?

为了更深入地探究模型“翻车”的原因,我们引入了一个更宽松的评测标准——“松散度量”(Loose Metric)。它不再要求模型答对所有变体,而是计算答对变体的平均准确率。这就像考试时,老师会给步骤分,而不是只看最终答案。

通过对比“严格度量”(全对才得分)和“松散度量”(按比例得分)的结果,我们可以区分两种主要的失败原因:

  1. 数据污染导致的记忆过拟合: 如果一个模型在松散度量下得分依然很低,说明它连单个的变体问题都解决不了,极度依赖于背诵原始问题的答案。
  2. 符号推理的不稳定性: 如果模型在松散度量下得分尚可,但在严格度量下得分很低,这说明它能“磕磕绊绊”地解决一部分变体,但无法保证在所有变体上都表现稳定。它的推理能力就像一个时灵时不灵的灯泡,缺乏一致性。

动画三:严格 vs. 松散——两种度量下的不同诊断

观察在两种不同评分标准下,同一个模型的表现诊断有何不同。这有助于我们理解模型失败的深层原因。

严格得分 (All-or-Nothing): 0

松散得分 (Average Accuracy): 0%

更稳定的评估:减少评估中的“噪音”

传统评估的另一个问题是“运气成分”。模型有时可能会因为随机的输出(我们称之为“随机性”)而碰巧答对难题。这种评估结果的波动性很大,就像我们测量一个物体的长度,如果尺子本身不稳定,每次测量的结果都会有差异。

VAR-MATH通过评估一组问题的平均表现,自然地平滑了这种随机性。因为模型很难在多个不同的变体问题上都“靠运气”答对。这使得我们的评估结果更加稳定、可靠,更能反映模型真实的、内在的能力水平,减少了评估过程中的“噪音”。

示意图一:评估稳定性对比

下图展示了模型在多次测试中得分的标准差分布。蓝色曲线代表VAR-MATH,红色代表传统基准。可以看到,蓝色曲线更窄、更集中,表明VAR-MATH的评估结果方差更小,评估更稳定。

结论:迈向更真实的AI推理能力评估

通过VAR-MATH,我们揭示了一个重要的事实:当前基于标准基准的强化学习训练,可能在无意中鼓励了模型去“走捷径”,过度拟合了数据集中的表面模式,而不是去学习真正通用的数学推理能力。我们取得的很多“进步”,可能并没有我们想象的那么坚实。

VAR-MATH框架提供了一种简单而强大的范式转变。它将评估的重点从“孤立的准确性”转向了“结构化的泛化能力和行为的一致性”。这不仅仅是对AMC和AIME这两个数据集的改进,它的核心思想可以被广泛应用于其他推理密集型任务,如程序合成、形式逻辑、科学发现等。

我相信,只有建立起更严格、更抗污染、更能洞察真实能力的评估标准,我们才能引导AI朝着真正智能的方向发展,而不是在基准测试的“刷分游戏”中自我陶醉。VAR-MATH,正是我们为实现这一目标迈出的坚实一步。我们希望它能成为社区的一个有用工具,共同推动大型语言模型走向更深层次的“理解”。

示意图二:VAR-MATH 数据处理流程

此图概括了将一个普通数学问题转化为VAR-MATH测试用例的两个主要阶段:预处理和评估。

示意图三:模型性能下降概览 (AIME24)

以AIME24基准为例,直观感受不同模型在遭遇VAR-MATH时的性能衰减情况。

技术附录:VAR-MATH 框架详解

1. 设计原则

VAR-MATH的核心动机是解决数学推理评估中的两大顽疾:基准污染评估脆弱性。传统基准将问题呈现为静态的数值实例,这使得模型可以通过记忆或利用浅层模式匹配来“作弊”,而非进行真正的推理。VAR-MATH通过我们称之为符号化可变(symbolic variabilization)的过程,将问题结构与固定的数值内容解耦。我们不硬编码具体常数,而是将问题重构为符号模板,在评估时动态实例化具体值。这一抽象过程使模型能够在结构等价的问题族上接受测试,而不仅仅是孤立的实例。

我们的基本假设是:一个真正理解数学问题的模型,应表现出推理一致性(reasoning consistency),即无论具体数值如何变化,都能解决具有相同逻辑结构的多个问题变体。通过从受约束的参数空间中系统地采样,VAR-MATH在保留每个问题原始语义的同时引入了可控的变化。这带来了一个更稳健、更能抵抗污染的评估协议,能够区分真正的理解与表面启发式方法。

2. 数据处理流程

数据转换流程始于从现有数学基准(主要关注AMC23和AIME24)中系统地选择问题。每个选定的问题都经过领域专家的符号化抽象,遵循一个结构化的四步方法:

  • 结构分析:首先,我们分析每个问题的代数结构,识别输入参数与预期解之间的关系。
  • 符号参数化:在保留原始语义难度的前提下,策略性地用变量替换数值常数。每个变量都被赋予一个根据问题上下文定义的可行域。
  • 参数化解的构建:答案被表示为已定义变量的符号函数。支持多种答案格式,包括常数、集合映射和代数表达式。
  • 精度指定:为确保在实例化和评估过程中的数值稳定性,对变量和解都应用了适当的舍入策略和有效数字约束。

在某些情况下,为了保持问题的数学特性,一些关键常数(如 $\pi, e$ 或固定的几何参数)会被保留。最终,我们生成了两个可变基准:VAR-AMC23和VAR-AIME24。每个问题被编码为一个结构化对象,包含符号化的问题表达式、带可行集的变量定义、参数化答案以及元数据。

3. 评估流程

评估过程遵循一个严格的两阶段协议:实例化验证

实例化阶段,通过从预定义的变量可行域中采样,为每个符号模板生成多个具体的问题实例。对于每个采样实例,其标准答案(ground-truth)直接从模板关联的参数化解计算得出。然后,这些实例化的问题被呈现给模型。

验证阶段,我们使用一个极其严格的正确性标准。具体来说,对于任何一个符号化问题,只有当模型正确回答了其所有的实例化变体(在我们的实验中,每个问题最多5个变体)时,才被授予满分。这种“全有或全无”(all-or-nothing)的策略将评估的重心从单个实例的水平提升到了符号抽象的水平,从而强有力地检验了模型跨结构等价变体的推理一致性。

4. 公式示例与解释

让我们再看一下那个经典的例子。原始问题可能是:

$$ \text{计算由 } | |x|-1| + | |y|-1| \le 1 \text{ 定义的区域面积。} $$

这是一个固定的问题,其解是一个菱形,面积为 $2 \times (1)^2 \times 2 = 4$ ... 不对,实际上是一个由四个小正方形组成的更大正方形,顶点在 $(\pm 2, 0)$ 和 $(0, \pm 2)$,总面积是8。看,即使是人类也容易出错!

在VAR-MATH中,它被转化为:

$$ \text{计算由 } | |x|-a| + | |y|-a| \le a \text{ 定义的区域面积,其中 } a > 0 \text{。} $$

这里的 $a$ 就是一个符号变量。该区域的面积可以被参数化为 $S(a) = 8a^2$。这是一个通用的解。在评估时,我们会随机选择一些 $a$ 的值,比如 $a=2$,问题就变成了计算 $| |x|-2| + | |y|-2| \le 2$ 的面积,答案是 $8 \times 2^2 = 32$。如果再选择 $a=5$,问题是计算 $| |x|-5| + | |y|-5| \le 5$ 的面积,答案是 $8 \times 5^2 = 200$。模型必须对我们给出的所有 $a$ 值都计算出正确答案,才能证明它真正“理解”了这类问题的解法,而不仅仅是记住了 $a=1$ 的特例。