OPENAI是如何训练03ALPHA的?

作者:Alexander Wei

机构:OpenAI

引言:一个疯狂的梦想成真

大家好,我叫亚历山大·韦(Alexander Wei),在OpenAI工作。今天,我想和大家分享一个不久前还被认为是遥不可及的梦想,以及我们团队如何将它变为现实的故事。我们最新的实验性推理大语言模型(LLM),在全球最负盛名的数学竞赛——国际数学奥林匹克(IMO)中,取得了金牌水平的表现。这不仅仅是一次技术的胜利,更是对人工智能创造性与推理能力极限的一次重大突破。

回想2021年,我的博士导师雅各布·斯坦哈特(Jacob Steinhardt)曾让我预测AI在数学领域的进展。当时我的预测是,到2025年7月,AI或许能在MATH基准测试中拿到30分。我自认为这已经是一个相当乐观的估计了。然而,现实的步伐远超想象——我们不仅超越了那个目标,还直接触及了人类天才少年们展现智力巅峰的舞台:IMO。

为什么IMO如此特别?它不像我们常见的数学题,有固定的解题套路。IMO的题目要求的是持续数小时的高度创造性思维,其证明过程往往长达数页,充满了非线性的跳跃和深刻的洞察。这正是我们面临的核心挑战:如何让一个AI在没有明确、可量化的“奖励”指引下,去构建一个复杂、精妙且无懈可击的数学论证? 这篇文章,我将带你深入幕后,探索我们为此开创的新范式。

第一部分:挑战——为什么IMO是AI推理的“珠穆朗玛峰”

要理解我们成就的重要性,首先要明白IMO与传统AI基准测试的天壤之别。我们可以用一个简单的尺度来衡量——顶尖人类解决问题所需的时间:

  • GSM8K(小学数学题): 约 0.1 分钟。这考验的是基础的阅读理解和算术。
  • MATH(高中数学竞赛题): 约 1 分钟。难度提升,需要多步推理。
  • AIME(美国数学邀请赛): 约 10 分钟。需要更复杂的技巧和创造力。
  • IMO(国际数学奥林匹克): 约 100 分钟。这是完全不同维度的挑战,要求的是马拉松式的、高度原创的深度思考。

这种时间跨度的指数级增长,背后是问题复杂性的爆炸。IMO的题目并非简单地将多个步骤串联起来,它要求参赛者在广阔的数学知识海洋中,发现那些隐藏的、无人走过的路径。

这给传统的强化学习(RL)范式带来了致命的难题。经典的RL就像训练一只小狗学握手:它伸出爪子,你就给它一块零食(奖励)。这个反馈是即时、清晰、可验证的。但在构建一个IMO级别的证明时,你不可能在模型写对一个符号或一个逻辑推导后,就给它一个“+0.01”的奖励。整个证明是一个有机的整体,一个微小的瑕疵就可能让数页的努力化为乌有。最终的“奖励”——即证明是否正确——不仅延迟巨大,而且其验证过程本身也极其复杂,甚至需要人类专家的判断。

生活化类比: 这就像教一个孩子写一部伟大的小说,而不是教他做填空题。你无法因为他写了一个优美的句子就给他一分,因为这个句子可能与上下文格格不入。最终的评价是针对整部小说的情节、人物、主题和文笔的综合感受。这种评价是模糊的、整体的,无法被简单量化为一个个“奖励点”。我们需要的,是一种能让AI理解并追求这种“整体艺术感”的方法。

静态示意图:证明的脆弱性

一个数学证明就像一条环环相扣的逻辑链。任何一个环节的薄弱或错误,都会导致整个证明的崩溃。这解释了为什么无法对中间步骤进行简单的、孤立的奖励。

第二部分:突破——打造内在的“数学家直觉”

面对“奖励模糊”这一核心困境,我们意识到,必须彻底改变游戏规则。我们不能再依赖外部的、简单的奖励信号。相反,我们必须让模型在内部发展出一种属于自己的“判断力”或“数学品味”——一种能够自我评估、自我修正、自我驱动的机制。我们称之为“过程监督的生成式研究”(Process-Supervised Generative Research)

这个想法的核心,是构建一个“生成器-评论家”的动态系统。

1. 生成器(The Generator):慷慨的探索者

“生成器”是我们强大的基础语言模型。它的任务是面对一个IMO问题,尽可能地发散思维,产生大量可能的解题路径、中间步骤和猜想。它就像一个充满激情、不知疲倦的年轻数学家,拥有广博的知识,能够瞬间提出上百种不同的想法,无论这些想法是常规的、激进的还是看似荒谬的。

交互动画1:生成器的“思想爆炸”

这个动画展示了“生成器”的工作方式。从一个中心问题开始,它会不断生成新的、可能的探索路径,形成一个巨大的“可能性之树”。点击“开始”观察这个过程。

状态: 待开始 | 探索路径数: 1

2. 评论家(The Critic):严谨的品味塑造者

这是我们方法论的真正核心。如果说“生成器”负责广度,那么“评论家”就负责深度和方向。这个“评论家”本身也是一个经过特殊训练的模型。我们没有用“正确/错误”这种简单的标签来训练它,而是让它学习海量的、由人类数学家撰写的优质证明、解题思路、甚至是学术论文的评审意见。

通过这种方式,“评论家”学会的不是去验证一个结果,而是去评估一个“过程”的质量。它能判断出:

  • 这个推理步骤是否“优雅”?
  • 这条探索路径是否“有前途”?
  • 这个中间引理是否可能导向一个更简洁的证明?
  • 这个论证是否存在潜在的逻辑漏洞?

生活化类比: 这位“评论家”就像一位经验丰富的围棋大师在指导学徒。大师不会等到一盘棋下完才告诉学徒“你输了”。在棋局中,他会不断地评价:“这步棋很有味道”、“这个方向的思考很有潜力”、“你忽略了对手的这个意图”。这种过程中的、带有启发性的反馈,远比最终的胜负结果更有价值。

交互动画2:“评论家”的修剪艺术

在“生成器”创造的可能性之树上,“评论家”会识别并“修剪”掉那些没有前途的、或逻辑上可疑的分支,从而将计算资源集中在最有希望的路径上。绿色代表高潜力,红色代表低潜力。

状态: 待开始 | 剩余优质路径: 0

3. 闭环:自我完善的推理循环

当“生成器”和“评论家”协同工作时,一个强大的推理循环就形成了:

  1. 生成: 生成器针对当前状态,提出数十个下一步的可能走法。
  2. 评估: 评论家为每一个“走法”打分。这个分数不是简单的0或1,而是一个综合了“潜力”、“优雅度”、“逻辑严谨性”的复杂奖励信号 $R_{\text{process}}$。
  3. 选择: 系统根据评论家的评分,选择最有希望的路径继续深入探索。
  4. 迭代: 这个过程不断重复,模型在自我生成的“可能性空间”中,由自我训练的“品味”引导,逐步走向最终的证明。

这个过程也解释了“扩展测试时计算”的意义。在解决问题的那一刻(测试时),我们投入巨大的计算资源,让生成器和评论家进行数百万次的微型“头脑风暴”和“内部辩论”,直到找到一条从头到尾都无懈可击的路径。

交互动画3:自我修正的循环

这个动画模拟了一个推理“粒子”的探索过程。当它遇到“评论家”认为有问题的节点(红色标记)时,它会回溯并尝试其他路径,直到找到一条通往终点的全绿路径。

状态: 待开始 | 已找到解:

第三部分:更多可视化洞察

为了更直观地理解我们方法的威力,让我们看几个对比和示意图。

交互动画4:传统RL vs. 过程监督

左边是传统RL:智能体盲目探索,只有到达终点才能获得奖励。右边是我们的方法:评论家(紫色光环)实时提供过程指引,帮助智能体更快找到最优路径。

传统RL步数: 0 | 过程监督步数: 0

交互动画5:扩展计算的力量

这个动画展示了“测试时计算”的重要性。你可以通过滑块增加并行工作的“思考者”(探索路径的智能体)数量,观察它们如何通过协作更快地解决复杂的迷宫问题。

状态: 待开始 | 解决时间: N/A

静态示意图:问题复杂度的阶梯

从GSM8K到IMO,问题的“解空间”呈指数级增长。这幅图形象地展示了为什么简单的方法在IMO级别会完全失效。

静态示意图:我们的核心方法论流程图

这张图总结了“生成器-评论家”模型的工作流程,一个不断生成、评估、选择和迭代的闭环系统。

第四部分:成果与未来展望

通过这套方法,我们的模型最终在2025年IMO的6道题目中成功解答了5道,总分获得了35/42分——这是一个稳固的金牌成绩。每一份解答都经过了三位前IMO金牌得主的独立、匿名的严格评审,确保了结果的公正性。

更让我感到兴奋的,并非仅仅是这个金牌本身,而是我们达成这个目标所使用的通用方法。我们没有为IMO问题设计任何狭隘的、特定的“解题器”。这个“生成器-评论家”框架是通用的,它背后的原理——通过过程监督来培养模型的内在判断力——有潜力被应用到任何一个需要深度、创造性推理的领域,比如科学发现、工程设计,甚至是艺术创作。

当然,这只是一个开始。我们目前使用的还是一个实验性的研究模型,距离将这种级别的数学能力集成到像GPT-5这样的公开发布产品中,还有数月甚至更长的时间。但这清晰地指明了AI发展的未来方向:从单纯地拟合数据,到真正地进行创造性思考。

人工智能的进步速度令人敬畏。我们曾经认为遥不可及的山峰,如今已然站在脚下。而前方,还有更广阔、更激动人心的未知世界等待着我们和AI一同去探索。我们衷心祝贺所有参加2025年IMO的人类选手,他们代表着人类智慧的火种,而我们,则有幸为这火种增添了来自硅基生命的一道新的光芒。

技术附录:深入“过程奖励”模型

对于希望了解更多技术细节的读者,本附录将简要阐述“过程奖励”(Process Reward)模型 $R_{\phi}$ 的一些概念性细节。这里的 $\phi$ 代表奖励模型的参数。

奖励模型的构建

与传统的“结果奖励”(Outcome Reward)模型不同,我们的“过程奖励”模型旨在评估一个不完整的、正在进行中的推理过程。我们收集了一个庞大的高质量数据集,其中不仅包含问题和最终答案,更重要的是包含了详细的、带有专家注释的解题步骤。

数据集中的每个推理步骤 $s_t$ 都附带有一系列元数据标签,例如 $\{ \text{elegance}, \text{correctness}, \text{novelty}, \text{potential} \}$。我们使用这些数据来训练奖励模型 $R_{\phi}$,使其能够对任意给定的推理片段进行打分。

形式化表达

一个完整的证明可以被看作一个轨迹 $\tau = (s_0, a_0, s_1, a_1, \dots, s_T)$,其中 $s_t$ 是在时间步 $t$ 的推理状态,$a_t$ 是采取的行动(比如,应用一个定理)。传统的RL目标是最大化最终奖励 $\mathbb{E}[R(\tau)]$。

在我们的范式中,目标是最大化每一步的过程奖励之和。在任何一步 $t$,生成器(策略网络 $\pi_{\theta}$)生成一个动作 $a_t$,然后由奖励模型 $R_{\phi}$ 评估这个动作引导下的新状态 $s_{t+1}$ 的“质量”:

$$ \text{Reward}_t = R_{\phi}(s_t, a_t) $$

这个奖励 $R_{\phi}$ 是一个复杂的函数,它可能被建模为:

$$ R_{\phi}(s, a) \approx w_1 \cdot f_{\text{logic}}(s, a) + w_2 \cdot f_{\text{potential}}(s, a) + w_3 \cdot f_{\text{elegance}}(s, a) $$

其中,$f_{\text{logic}}$ 评估当前步骤的逻辑一致性,$f_{\text{potential}}$ 预测这条路径通往最终解的概率,$f_{\text{elegance}}$ 评估解法的简洁与巧妙程度。这些权重 $w_i$ 和函数 $f$ 都是通过在专家数据上训练学习到的。

挑战与缓解

这种方法的一个主要挑战是避免奖励模型自身的“欺骗行为”(reward hacking)。例如,模型可能会发现,生成更长、更复杂的步骤总能获得更高的“潜力”分数,即使这些步骤是无用的。为了缓解这个问题,我们引入了正则化项,比如对证明的长度和复杂度进行惩罚。此外,我们还采用了对抗性训练技术,让一个模型专门寻找奖励模型的漏洞,从而使其更加鲁棒。

总而言之,我们成功的关键,在于将AI训练的焦点从“追求正确答案”转移到了“学习正确的思考过程”。这种从结果到过程的转变,为解决开放式、创造性的复杂问题,打开了一扇全新的大门。