OPENAI是如何训练03ALPHA的？金牌IMO

引言：一个疯狂的梦想成真

大家好，我叫亚历山大·韦（Alexander Wei），在OpenAI工作。今天，我想和大家分享一个不久前还被认为是遥不可及的梦想，以及我们团队如何将它变为现实的故事。我们最新的实验性推理大语言模型（LLM），在全球最负盛名的数学竞赛——国际数学奥林匹克（IMO）中，取得了金牌水平的表现。这不仅仅是一次技术的胜利，更是对人工智能创造性与推理能力极限的一次重大突破。

回想2021年，我的博士导师雅各布·斯坦哈特（Jacob Steinhardt）曾让我预测AI在数学领域的进展。当时我的预测是，到2025年7月，AI或许能在MATH基准测试中拿到30分。我自认为这已经是一个相当乐观的估计了。然而，现实的步伐远超想象——我们不仅超越了那个目标，还直接触及了人类天才少年们展现智力巅峰的舞台：IMO。

为什么IMO如此特别？它不像我们常见的数学题，有固定的解题套路。IMO的题目要求的是持续数小时的高度创造性思维，其证明过程往往长达数页，充满了非线性的跳跃和深刻的洞察。这正是我们面临的核心挑战：如何让一个AI在没有明确、可量化的“奖励”指引下，去构建一个复杂、精妙且无懈可击的数学论证？ 这篇文章，我将带你深入幕后，探索我们为此开创的新范式。

第一部分：挑战——为什么IMO是AI推理的“珠穆朗玛峰”

要理解我们成就的重要性，首先要明白IMO与传统AI基准测试的天壤之别。我们可以用一个简单的尺度来衡量——顶尖人类解决问题所需的时间：

GSM8K（小学数学题）: 约 0.1 分钟。这考验的是基础的阅读理解和算术。
MATH（高中数学竞赛题）: 约 1 分钟。难度提升，需要多步推理。
AIME（美国数学邀请赛）: 约 10 分钟。需要更复杂的技巧和创造力。
IMO（国际数学奥林匹克）: 约 100 分钟。这是完全不同维度的挑战，要求的是马拉松式的、高度原创的深度思考。

这种时间跨度的指数级增长，背后是问题复杂性的爆炸。IMO的题目并非简单地将多个步骤串联起来，它要求参赛者在广阔的数学知识海洋中，发现那些隐藏的、无人走过的路径。

这给传统的强化学习（RL）范式带来了致命的难题。经典的RL就像训练一只小狗学握手：它伸出爪子，你就给它一块零食（奖励）。这个反馈是即时、清晰、可验证的。但在构建一个IMO级别的证明时，你不可能在模型写对一个符号或一个逻辑推导后，就给它一个“+0.01”的奖励。整个证明是一个有机的整体，一个微小的瑕疵就可能让数页的努力化为乌有。最终的“奖励”——即证明是否正确——不仅延迟巨大，而且其验证过程本身也极其复杂，甚至需要人类专家的判断。

生活化类比： 这就像教一个孩子写一部伟大的小说，而不是教他做填空题。你无法因为他写了一个优美的句子就给他一分，因为这个句子可能与上下文格格不入。最终的评价是针对整部小说的情节、人物、主题和文笔的综合感受。这种评价是模糊的、整体的，无法被简单量化为一个个“奖励点”。我们需要的，是一种能让AI理解并追求这种“整体艺术感”的方法。

静态示意图：证明的脆弱性

一个数学证明就像一条环环相扣的逻辑链。任何一个环节的薄弱或错误，都会导致整个证明的崩溃。这解释了为什么无法对中间步骤进行简单的、孤立的奖励。

第二部分：突破——打造内在的“数学家直觉”

面对“奖励模糊”这一核心困境，我们意识到，必须彻底改变游戏规则。我们不能再依赖外部的、简单的奖励信号。相反，我们必须让模型在内部发展出一种属于自己的“判断力”或“数学品味”——一种能够自我评估、自我修正、自我驱动的机制。我们称之为“过程监督的生成式研究”（Process-Supervised Generative Research）。

这个想法的核心，是构建一个“生成器-评论家”的动态系统。

1. 生成器（The Generator）：慷慨的探索者

“生成器”是我们强大的基础语言模型。它的任务是面对一个IMO问题，尽可能地发散思维，产生大量可能的解题路径、中间步骤和猜想。它就像一个充满激情、不知疲倦的年轻数学家，拥有广博的知识，能够瞬间提出上百种不同的想法，无论这些想法是常规的、激进的还是看似荒谬的。

交互动画1：生成器的“思想爆炸”

这个动画展示了“生成器”的工作方式。从一个中心问题开始，它会不断生成新的、可能的探索路径，形成一个巨大的“可能性之树”。点击“开始”观察这个过程。

状态: 待开始 | 探索路径数: 1

2. 评论家（The Critic）：严谨的品味塑造者

这是我们方法论的真正核心。如果说“生成器”负责广度，那么“评论家”就负责深度和方向。这个“评论家”本身也是一个经过特殊训练的模型。我们没有用“正确/错误”这种简单的标签来训练它，而是让它学习海量的、由人类数学家撰写的优质证明、解题思路、甚至是学术论文的评审意见。

通过这种方式，“评论家”学会的不是去验证一个结果，而是去评估一个“过程”的质量。它能判断出：

这个推理步骤是否“优雅”？
这条探索路径是否“有前途”？
这个中间引理是否可能导向一个更简洁的证明？
这个论证是否存在潜在的逻辑漏洞？

生活化类比： 这位“评论家”就像一位经验丰富的围棋大师在指导学徒。大师不会等到一盘棋下完才告诉学徒“你输了”。在棋局中，他会不断地评价：“这步棋很有味道”、“这个方向的思考很有潜力”、“你忽略了对手的这个意图”。这种过程中的、带有启发性的反馈，远比最终的胜负结果更有价值。

交互动画2：“评论家”的修剪艺术

在“生成器”创造的可能性之树上，“评论家”会识别并“修剪”掉那些没有前途的、或逻辑上可疑的分支，从而将计算资源集中在最有希望的路径上。绿色代表高潜力，红色代表低潜力。

状态: 待开始 | 剩余优质路径: 0

3. 闭环：自我完善的推理循环

当“生成器”和“评论家”协同工作时，一个强大的推理循环就形成了：

生成： 生成器针对当前状态，提出数十个下一步的可能走法。
评估： 评论家为每一个“走法”打分。这个分数不是简单的0或1，而是一个综合了“潜力”、“优雅度”、“逻辑严谨性”的复杂奖励信号 $R_{\text{process}}$。
选择： 系统根据评论家的评分，选择最有希望的路径继续深入探索。
迭代： 这个过程不断重复，模型在自我生成的“可能性空间”中，由自我训练的“品味”引导，逐步走向最终的证明。

这个过程也解释了“扩展测试时计算”的意义。在解决问题的那一刻（测试时），我们投入巨大的计算资源，让生成器和评论家进行数百万次的微型“头脑风暴”和“内部辩论”，直到找到一条从头到尾都无懈可击的路径。

交互动画3：自我修正的循环

这个动画模拟了一个推理“粒子”的探索过程。当它遇到“评论家”认为有问题的节点（红色标记）时，它会回溯并尝试其他路径，直到找到一条通往终点的全绿路径。

状态: 待开始 | 已找到解: 否

第三部分：更多可视化洞察

为了更直观地理解我们方法的威力，让我们看几个对比和示意图。

交互动画4：传统RL vs. 过程监督

左边是传统RL：智能体盲目探索，只有到达终点才能获得奖励。右边是我们的方法：评论家（紫色光环）实时提供过程指引，帮助智能体更快找到最优路径。

传统RL步数: 0 | 过程监督步数: 0

交互动画5：扩展计算的力量

这个动画展示了“测试时计算”的重要性。你可以通过滑块增加并行工作的“思考者”（探索路径的智能体）数量，观察它们如何通过协作更快地解决复杂的迷宫问题。

思考者数量: 10

状态: 待开始 | 解决时间: N/A

静态示意图：问题复杂度的阶梯

从GSM8K到IMO，问题的“解空间”呈指数级增长。这幅图形象地展示了为什么简单的方法在IMO级别会完全失效。

静态示意图：我们的核心方法论流程图

这张图总结了“生成器-评论家”模型的工作流程，一个不断生成、评估、选择和迭代的闭环系统。

第四部分：成果与未来展望

通过这套方法，我们的模型最终在2025年IMO的6道题目中成功解答了5道，总分获得了35/42分——这是一个稳固的金牌成绩。每一份解答都经过了三位前IMO金牌得主的独立、匿名的严格评审，确保了结果的公正性。

更让我感到兴奋的，并非仅仅是这个金牌本身，而是我们达成这个目标所使用的通用方法。我们没有为IMO问题设计任何狭隘的、特定的“解题器”。这个“生成器-评论家”框架是通用的，它背后的原理——通过过程监督来培养模型的内在判断力——有潜力被应用到任何一个需要深度、创造性推理的领域，比如科学发现、工程设计，甚至是艺术创作。

当然，这只是一个开始。我们目前使用的还是一个实验性的研究模型，距离将这种级别的数学能力集成到像GPT-5这样的公开发布产品中，还有数月甚至更长的时间。但这清晰地指明了AI发展的未来方向：从单纯地拟合数据，到真正地进行创造性思考。

人工智能的进步速度令人敬畏。我们曾经认为遥不可及的山峰，如今已然站在脚下。而前方，还有更广阔、更激动人心的未知世界等待着我们和AI一同去探索。我们衷心祝贺所有参加2025年IMO的人类选手，他们代表着人类智慧的火种，而我们，则有幸为这火种增添了来自硅基生命的一道新的光芒。

技术附录：深入“过程奖励”模型

对于希望了解更多技术细节的读者，本附录将简要阐述“过程奖励”（Process Reward）模型 $R_{\phi}$ 的一些概念性细节。这里的 $\phi$ 代表奖励模型的参数。

奖励模型的构建

与传统的“结果奖励”（Outcome Reward）模型不同，我们的“过程奖励”模型旨在评估一个不完整的、正在进行中的推理过程。我们收集了一个庞大的高质量数据集，其中不仅包含问题和最终答案，更重要的是包含了详细的、带有专家注释的解题步骤。

数据集中的每个推理步骤 $s_t$ 都附带有一系列元数据标签，例如 $\{ \text{elegance}, \text{correctness}, \text{novelty}, \text{potential} \}$。我们使用这些数据来训练奖励模型 $R_{\phi}$，使其能够对任意给定的推理片段进行打分。

形式化表达

一个完整的证明可以被看作一个轨迹 $\tau = (s_0, a_0, s_1, a_1, \dots, s_T)$，其中 $s_t$ 是在时间步 $t$ 的推理状态，$a_t$ 是采取的行动（比如，应用一个定理）。传统的RL目标是最大化最终奖励 $\mathbb{E}[R(\tau)]$。

在我们的范式中，目标是最大化每一步的过程奖励之和。在任何一步 $t$，生成器（策略网络 $\pi_{\theta}$）生成一个动作 $a_t$，然后由奖励模型 $R_{\phi}$ 评估这个动作引导下的新状态 $s_{t+1}$ 的“质量”：

$$ \text{Reward}_t = R_{\phi}(s_t, a_t) $$

这个奖励 $R_{\phi}$ 是一个复杂的函数，它可能被建模为：

$$ R_{\phi}(s, a) \approx w_1 \cdot f_{\text{logic}}(s, a) + w_2 \cdot f_{\text{potential}}(s, a) + w_3 \cdot f_{\text{elegance}}(s, a) $$

其中，$f_{\text{logic}}$ 评估当前步骤的逻辑一致性，$f_{\text{potential}}$ 预测这条路径通往最终解的概率，$f_{\text{elegance}}$ 评估解法的简洁与巧妙程度。这些权重 $w_i$ 和函数 $f$ 都是通过在专家数据上训练学习到的。

挑战与缓解

这种方法的一个主要挑战是避免奖励模型自身的“欺骗行为”（reward hacking）。例如，模型可能会发现，生成更长、更复杂的步骤总能获得更高的“潜力”分数，即使这些步骤是无用的。为了缓解这个问题，我们引入了正则化项，比如对证明的长度和复杂度进行惩罚。此外，我们还采用了对抗性训练技术，让一个模型专门寻找奖励模型的漏洞，从而使其更加鲁棒。

总而言之，我们成功的关键，在于将AI训练的焦点从“追求正确答案”转移到了“学习正确的思考过程”。这种从结果到过程的转变，为解决开放式、创造性的复杂问题，打开了一扇全新的大门。