摘要 (Abstract)
大型语言模型(LLMs)通过强化学习和长思维链展现了强大的数学推理能力,但由于自然语言缺乏明确的监督信号,在定理证明领域仍举步维艰。Lean等领域特定语言通过形式化验证提供了清晰的监督,为强化学习的有效训练铺平了道路。在此,我们提出了Seed-Prover,一个引理风格的(lemma-style)全证明推理模型。Seed-Prover能基于Lean编译器的反馈、已证引理和自我总结来迭代优化其证明。为解决国际数学奥林匹克(IMO)级别的竞赛难题,我们设计了三种兼顾深度和广度的测试时推理策略。Seed-Prover证明了78.1%的形式化IMO历史难题,饱和了MiniF2F测试集,并在PutnamBench上取得了超过50%的成绩,大幅超越了先前的技术水平。为弥补Lean在几何领域的不足,我们引入了专用的几何推理引擎Seed-Geometry,其性能优于以往的形式化几何引擎。我们使用这两个系统参加了2025年IMO,并成功证明了6个问题中的5个。这项工作代表了自动数学推理领域的一项重大进步,展示了形式化验证与长思维链推理相结合的巨大潜力。
星辰大海的入场券:为何是数学?
大家好,我是字节跳动Seed小组的一员。今天,我想和大家聊聊我们正在进行的一项激动人心的工作——教AI进行真正的数学推理。这不仅仅是让机器算得更快,而是要赋予它像人类数学家一样思考、探索和证明的能力。我们相信,这是通往通用人工智能(AGI)的漫漫征途上,一块至关重要的“敲门砖”。
为什么是数学?因为数学是逻辑的极致体现,是宇宙的通用语言。一个能够真正理解并创造数学的AI,意味着它掌握了最高级别的抽象、推理和创造能力。然而,这条路远比想象的要崎岖。过去,我们让AI解数学题,更像是让它背诵九九乘法表,它知其然,但不知其所以然。
问题出在哪里?出在“语言”上。人类数学家可以用自然语言写下证明,同行一看便知其精妙。但对机器来说,自然语言充满了模糊和歧义。“显而易见”、“不难证明”——这些词对AI来说简直是天书。我们需要一把更精确的尺子,来度量AI思维的每一步是否正确。这把尺子,就是形式化语言。
从“食谱”到“化学式”:形式化语言的力量
想象一下,自然语言的证明就像一份家常菜的食谱:“加少许盐,翻炒片刻”。“少许”是多少?“片刻”是多久?这依赖于厨师的经验和感觉。而形式化证明,则像一个精确的化学反应式:\(2\text{H}_2 + \text{O}_2 \rightarrow 2\text{H}_2\text{O}\)。每一个原子,每一个配比,都清清楚楚,不容置疑。机器可以自动、精确地验证这个过程的每一步,给出“对”或“错”的明确反馈。
我们选择的“化学式语言”,是Lean。它是一个强大的交互式定理证明器。在Lean的世界里,任何逻辑上的瑕疵都会被编译器无情地揪出来。这为我们利用强化学习训练模型提供了完美的“奖惩机制”。做对了,给奖励;做错了,给惩罚。模型在海量的试错中,逐渐学会了如何写出无懈可击的证明。
动画1:模糊到精确的转变
这个动画展示了同一个数学概念,在自然语言和形式化语言下的巨大差异。点击“形式化”按钮,看看模糊的描述是如何转化为精确、可验证的Lean代码的。
状态: 等待指令
双剑合璧:Seed-Geometry与Seed-Prover
面对庞杂的数学世界,我们打造了两把利剑:专攻几何的Seed-Geometry和通晓全局的Seed-Prover。
Seed-Geometry:光速几何大师
几何问题,尤其是奥赛级别的,常常需要神来之笔的“辅助线”。人类天才或许能灵光一闪,但AI如何系统地找到它?Seed-Geometry就是为此而生。它像一位顶级的几何大师,拥有两项绝技:
- 极致的速度:我们将它的核心推理引擎用C++重写,速度飙升了近百倍。这让它能在极短时间内探索海量的可能性。
- 聪明的“直觉”:我们用一个强大的Seed大模型来“预感”最有用的辅助线应该画在哪里。这大大缩减了搜索范围,直击问题要害。
在2025年的IMO赛场上,Seed-Geometry仅用2秒就解决了那道复杂的几何题。它不是在暴力搜索,而是在用一种接近“直觉”的方式高效推理。
图示1:Seed-Geometry的工作流程
从接收问题,到神经网络提出辅助线建议,再到C++引擎进行高速前向推理,最终输出证明。
Seed-Prover:深思熟虑的逻辑核心
如果说Seed-Geometry是专才,那么Seed-Prover就是我们打造的通才。它负责处理代数、数论、组合等更广泛的数学领域。它的核心思想,我们称之为“引理式证明”(Lemma-Style Proving)。
传统的AI证明,像写一篇长篇大论,从头写到尾,一旦中间卡壳,就前功尽弃。而Seed-Prover不一样,它像一位建筑师,在建造一座宏伟的大厦(最终定理)之前,会先去制造和检验各种标准的砖块、钢筋和预制板(这些就是“引理”)。
动画2:引理式证明的构建过程
最终的定理是一个大目标。点击“生成引理”按钮,观察Seed-Prover如何将复杂问题分解为一个个更小的、可管理、可验证的引理,并最终将它们组合起来完成证明。
这种方法的优势是巨大的:
- 模块化:每个引理都是一个独立的、可验证的单元。我们可以并行地证明它们。
- 知识复用:一个被证明的引理,就像一个经过认证的零件,可以在不同的证明路径中被反复使用。
- 进度清晰:我们能清楚地看到哪些“零件”已经合格,哪些还需要打磨,从而有效地分配计算资源。
AI的三重思考境界
面对不同难度的挑战,我们为Seed-Prover设计了三套思考模式,就像一个棋手拥有从“快棋”到“长考”的不同策略。
第一重:轻量推理 (Light Inference) - 敏捷的修正者
这就像一个学生在做完作业后快速检查一遍。Seed-Prover生成一个初步的证明草稿,然后让Lean编译器来“批改”。如果发现语法错误或者简单的逻辑断点,它会根据反馈立刻进行修改。这个过程会迭代8到16次。这种快速的“自我修正”循环,效率极高,能解决大量中等难度的问题。
生活化类比:你写了一段代码,编译器报错说“缺少一个分号”。你马上加上,再编译,通过了。这就是轻量推理的核心——快速响应,敏捷修复。
动画3:轻量推理的快速迭代
观察证明草稿如何经过Lean编译器的反复“批改”(从红X到绿✓)和自我总结,最终快速达成正确证明。
状态: 待开始 | 迭代次数: 0
第二重:中量推理 (Medium Inference) - 专注的深潜者
当遇到真正硬核的难题时,轻量级的修改就不够了。这些难题的证明往往结构复杂,其中可能包含一两个极其困难的“引理”。这时,Seed-Prover会启动中量推理模式。它会暂停对主问题的攻击,把计算资源集中起来,对那个最难的引理启动一个“子任务”,用轻量推理模式去专门攻克它。一旦这个关键引理被证明,它就会带着这个“战利品”返回主线任务,继续前进。
生活化类比:你在写一篇博士论文,发现需要一个前人没证明过的辅助定理。于是你暂停了主论文的写作,花了一个月时间专门写了一篇短文来证明这个辅助定理。成功后,你再把这个成果引用到你的博士论文里,问题便迎刃而解了。
动画4:中量推理的深度攻坚
主循环(外层)在推进,当遇到一个顽固的“失败引理”时,会触发一个子循环(内层)去专门解决它。观察内层循环成功后,如何帮助外层循环继续前进。
第三重:重量推理 (Heavy Inference) - 伟大的战略家
这是我们为最顶级的难题(比如IMO决赛的压轴题)准备的终极武器。它模拟的是人类顶级数学家解决世纪难题时的思考方式——不是一味猛冲,而是先进行广泛的、漫无目的的探索。
在这个模式下,Seed-Prover会先花上几天时间,生成数千个关于这个问题的“猜想”(Conjectures)。它会问自己:“这个函数会不会是单调的?”“这个代数结构有没有周期性?”……它像一个侦探,列出所有可能的线索,然后用轻量推理去逐一验证这些猜想。成功的猜想被放入一个“引理池”中,成为宝贵的知识储备。几天后,这个引理池里可能就积累了数千个关于这个问题的高度相关的事实。最后,Seed-Prover会带着这个庞大的“军火库”,启动中量推理,对主问题发起总攻。那些在探索阶段被证明最有价值的引理,往往就是通往最终答案的关键钥匙。
生活化类比:为了策划一场决定性战役,一位将军不会立刻出兵。他会花几周甚至几个月的时间,派出无数侦察兵,绘制地图,分析地形,研究敌人的所有可能动向,建立庞大的情报网络。当所有准备工作就绪,他才胸有成竹地发起总攻。
动画5:重量推理的“沙漏”模型
动画开始时,上方是充满无数混乱粒子的“猜想宇宙”。点击“开始探索”,观察这些粒子如何经过筛选、验证,最终汇聚成下方少数、闪亮的“核心引理”,为最终的证明提供动力。
已验证引理: 0
成果斐然,但征途依旧
凭借这套“组合拳”,我们在自动化定理证明领域取得了令人振奋的突破:
- IMO 2025: 6道题中,我们成功证明了5道,这在历史上是前所未有的。
- 饱和MiniF2F: 我们几乎完全解决了这个业界公认的、衡量形式化数学能力的标准测试集。
- 大幅超越SOTA: 在多个基准测试中,我们的表现远超之前的世界最佳水平。
图示2:性能对比
此图直观展示了Seed-Prover(紫色)相较于以往SOTA(灰色)在多个关键数学推理基准测试上的巨大优势。
然而,我们深知这只是一个开始。组合数学仍然是我们的短板,而真正的终极挑战——解决那些悬而未决的数学猜想,例如黎曼猜想——依然遥不可及。但这正是我们努力的方向。我们相信,通过将大语言模型的广阔直觉与形式化系统的严谨逻辑相结合,我们正在开辟一条通往机器智能新纪元的道路。
这条路的尽头,或许就是通用人工智能的曙光。我们很荣幸能成为这场伟大冲刺的一份子,也期待与全世界的同行者们一起,见证那个历史性时刻的到来。
技术附录:深入引擎室
LooKeng:我们为Lean打造的“瑞士军刀”
为了支撑如此大规模的实验,我们需要一个高效、灵活的工具来连接我们的AI模型和Lean编译器。官方工具无法满足我们的需求,于是我们从零开始打造了LooKeng。它是一个基于REPL的Python接口,拥有以下关键特性:
- 无状态设计:可以轻松地并行处理成千上万个Lean交互请求,极大地提升了效率。
- 版本自由:允许我们无缝切换不同的Lean版本,以利用最新的语言特性。
- 内存控制:可以精确监控和限制Lean后端的内存消耗,防止资源失控。
- 证明简化:能自动移除证明中无用的步骤和假设,让最终的证明代码更简洁、更优雅。
强化学习细节
我们的训练基于VAPO框架,这是一种高效可靠的强化学习方法。奖励机制很简单:证明成功,奖励为1;否则为0。此外,我们还引入了一个格式惩罚项,以鼓励模型优先生成引理。训练数据是动态的,我们会逐步增加问题的难度和多样性,同时剔除那些对模型来说已经“太简单”的问题,确保模型始终在“学习区”内成长。与以往工作不同,我们的提示(prompt)非常多样化,随机包含了自然语言提示、相似引理、失败尝试的总结、编译器反馈等,这极大地增强了模型在复杂推理流程中的适应性。
Seed-Geometry的领域特定语言 (DSL)
为了让AI能理解并构建几何图形,我们设计了一种特殊的语言。基础操作是“尺规作图”,但为了简洁,我们将一些常见的复杂操作打包成了“宏指令”。例如,“作一个点关于一个三角形的等角共轭点”或“求两个圆的内/外位似中心”,这些在我们的DSL里都只是一条指令。这极大地压缩了问题描述的长度,减轻了LLM的处理负担,也让符号推理引擎的效率更高。