StepFun-Prover 深度解读: 一场机器思维的革命

摘要 (Abstract)

在追求通用人工智能的征途中，数学推理始终是衡量机器智能的黄金标准。近年来，大型语言模型（LLMs）虽在自然语言处理任务上取得了革命性突破，但在要求严谨逻辑与符号操作的形式化数学领域，其表现仍面临瓶颈。传统模型往往依赖于大量的“暴力”采样，即通过成千上万次的尝试来偶然“撞上”一个正确证明，这种方式效率低下且缺乏可解释性。本文中，我们（StepFun团队）提出了StepFun-Prover，一个专为形式化定理证明设计的创新大型语言模型。其核心突破在于引入了一种工具集成推理（Tool-Integrated Reasoning）机制，并结合了先进的强化学习管线。这一设计使模型不再是盲目地生成代码，而是能够像人类数学家一样，与Lean 4等形式化验证环境进行实时“对话”。模型会主动提出证明草图（sketch），将其提交给验证器（REPL），然后根据收到的反馈（feedback）——无论是成功信息还是错误提示——来迭代地修正和完善自己的证明策略。这种“思考-验证-反思”的闭环学习模式，极大地提升了证明的效率和准确性。在极具挑战性的miniF2F-test基准测试中，我们的32B模型在pass@1（即单次尝试成功率）指标上达到了惊人的70.0%，显著超越了以往所有同类模型。StepFun-Prover不仅在基准测试上树立了新的标杆，更重要的是，我们提出并实现了一套完整的、可复现的端到端训练框架。该框架为开发下一代具备工具集成推理能力的模型铺平了道路，预示着自动化定理证明乃至通用数学AI助手即将迎来一个全新的发展纪元。

引言：当机器学会“思考”与“试错”

大家好，我是本文的主创之一。今天，我想和大家分享一段激动人心的探索旅程——我们是如何教会一个AI模型，让它不仅仅是“计算”，而是真正地去“思考”和“证明”数学定理的。

想象一下，你面对一道复杂的数学题。你通常会怎么做？你不会一口气写下所有步骤，对吗？你会先有一个大致的思路，写下几步推导，然后检查一下：“嗯，这步对不对？方向有没有错？” 如果发现问题，你会退回去，换个角度再试试。这个过程，充满了试探、验证和修正。这，就是人类智慧的闪光点。

然而，长久以来，AI在做数学题时，更像一个蒙着眼睛的“大力士”。它们能凭借强大的算力，生成海量的解答方案，希望能有一个“蒙对”。这种方法在简单问题上或许有效，但面对真正复杂的、需要深度逻辑推理的定理时，就显得力不从心了。成功率低，资源消耗大，更重要的是，我们无法理解它的“思考”过程，它自己也无法从失败中学习。我们不禁自问：

我们能否让AI像人类一样，在证明过程中与环境互动，从错误中学习，并自主地调整策略，从而高效地找到答案呢？

这便是我们研发StepFun-Prover的初心。我们希望它不再是一个只会“背答案”的学生，而是一个懂得“如何学习”的思考者。我们为它打造了一个独特的学习框架，让它能与一个名为Lean 4的“严格的数学老师”（形式化验证环境）进行对话。我们的模型可以自由地提出自己的“草稿”，然后虚心地听取“老师”的反馈，再根据反馈进行修改。这个过程可以不断重复，直到“老师”点头认可，给出一个完整的、无懈可击的证明。

这不仅仅是一次技术上的迭代，我们认为，这是一场关于机器思维方式的“革命”。它让模型从一个封闭的、单向的输出者，变成了一个开放的、与环境双向互动的学习者。接下来，我将带大家深入了解这场革命的核心技术，以及我们是如何一步步将这个看似疯狂的想法变为现实的。

核心理念：三大支柱构建智能证明器

1. 工具集成推理：从“独白”到“对话”

传统LLM的工作模式，好比一位演员在舞台上进行一场漫长的独白。它根据剧本（输入的问题）一次性地输出所有台词（完整的证明），中间没有任何停顿或与外界的交流。如果台词说错了，只能整场戏从头再来。

而我们的工具集成推理（Tool-Integrated Reasoning），则将这场独白变成了一出精彩的互动剧。模型是主角，而Lean 4验证器（REPL）则是台下的评委。模型不再需要一次性完成所有表演，它可以先说一小段台词（生成一小段证明代码，我们称之为`sketch`），然后停下来，问问评委：“我这段表现如何？”

评委（REPL）会立刻给出反馈（`feedback`）：可能是“掌声”（代码正确），也可能是“嘘声”并指出问题所在（代码有误或逻辑不通）。模型接收到这个反馈后，会立刻进行反思，调整接下来的表演策略，然后继续下一段表演。这个“表演-反馈-调整”的循环可以无限进行下去，直到整个剧目完美落幕。

动画1：从“独白”到“对话”的进化

生活化类比：左边是传统模型，像一个埋头写作业但从不检查的学生，很容易一条路走到黑。右边是StepFun-Prover，像一个边写边请教老师的学生，能及时发现并纠正错误，最终高效完成作业。

传统模型状态: 待开始 | StepFun-Prover状态: 待开始

2. 冷启动与响应模式融合：站在巨人的肩膀上

要让一个模型从零开始学会这种复杂的互动模式，是非常困难的。因此，我们设计了一个巧妙的“冷启动”策略。我们首先收集了大量已有的、高质量的数学证明数据，就像给新手提供了丰富的教科书和习题集。我们利用了开源数据集，并借助强大的模型（如Kimina-Autoformalizer和Claude Sonnet）生成了初始的“教学材料”。

但我们很快发现一个问题：不同的“老师”（Kimina和Claude）教学风格迥异，直接混合在一起会让模型“精神分裂”。Kimina的风格严谨但有时略显刻板，而Claude的风格则更具创造性和对话性。为了解决这个问题，我们开发了一种响应模式融合（Response Patterns Fusion）技术。

我们先让模型学习Kimina的严谨风格，然后专门收集Kimina出错的案例，再利用我们已经具备初步对话能力的模型（M₀）去“纠正”这些错误。这个过程好比，我们让学生先学习了一套标准解题范式，然后专门针对这套范式的弱点进行强化训练，教它如何在标准范式走不通时，灵活地切换到更具探索性的对话模式。通过这种方式，我们的模型（M₁）成功地融合了两种风格的优点，既有严谨的骨架，又有灵活的血肉。

示意图1：响应模式融合策略

3. 工具集成强化学习：在实战中进化

有了具备基础对话能力的模型 M₁，我们就进入了最关键的阶段：工具集成强化学习（Tool-Integrated Reinforcement Learning）。这好比是将一个已经掌握了基础知识和解题技巧的学生，投入到一场大型的、连续不断的模拟考试中。

在这个阶段，我们使用了一种名为GRPO (Group-based Reward Policy Optimization)的强化学习算法。它的核心思想非常直观：对于同一道题，我们让模型生成一组（比如8个）不同的解题尝试（我们称之为`rollout`）。这些尝试包含了模型与Lean 4 REPL的完整互动轨迹。然后，我们对每个尝试进行最终评判：如果最终的证明通过了验证，奖励为1（成功）；否则，奖励为0（失败）。

这个“非黑即白”的奖励机制非常重要。它避免了复杂的、可能带有偏见的过程性奖励，只关注最终结果。这鼓励模型去大胆探索各种可能的、甚至看起来有些“离经叛道”的证明路径，只要最终能成功，就会被认为是好的策略。

GRPO算法会比较一组尝试中的成功与失败案例，计算出哪些行为模式（`action`）更有可能导向成功。然后，它会更新模型的内部参数（`policy`），使得模型在下一次遇到类似问题时，更倾向于采取那些曾带来成功的策略。这个过程就像一个学生在不断刷题、对答案、总结错题本，最终内化出高效的解题直觉。

数学上，这个更新过程可以被定义为最大化一个目标函数 \(\mathcal{J}(\theta)\)。其核心是优势函数 \(A_i\)，计算公式为： \[ A_i = \frac{r_i - \text{mean}(r_1, r_2, ..., r_G)}{\text{std}(r_1, r_2, ..., r_G)} \] 这里，\(r_i\) 是第 \(i\) 个尝试的奖励（0或1），\(G\) 是一组尝试的总数。这个公式的意义是：如果一个尝试成功了（\(r_i=1\)），而组内平均成功率很低，那么这个成功的尝试就获得了很高的“优势”（positive advantage），模型会大力学习它。反之，一个失败的尝试会获得负的优势，模型会避免类似的路径。通过不断优化，模型的整体表现（`policy` \(\pi_\theta\)）就会越来越好。

动画2：强化学习 (GRPO) 进化过程

生活化类比：想象模型是位射箭运动员，每次射出一组箭（8支）。教练只看结果：射中靶心的箭（成功）会得到分析和表扬，其动作要领被强化；脱靶的箭（失败）则被忽略。久而久之，运动员会自发地更多采用那些能射中靶心的姿势和技巧。

迭代轮次: 0 | 平均奖励: 0.00

成果与分析：智慧的涌现

经过上述一系列精心的设计和训练，StepFun-Prover-Preview的表现没有让我们失望。在学术界公认的miniF2F-test基准上，我们的32B参数模型取得了70.0%的pass@1成功率。这是一个什么概念呢？这意味着，对于一个从未见过的新问题，我们的模型有七成的把握在第一次尝试时就给出完全正确的证明。这在之前是难以想象的，尤其是对于一个中等规模的模型而言。

更让我们兴奋的，不是冰冷的数字，而是模型在解决问题时展现出的“智慧火花”。我们观察到，模型自主地学会了多种高级的推理模式：

主动解决警告：即使REPL没有报错，只是给出一个警告（warning），模型也会主动去分析并优化代码，追求代码的完美性，这像极了一个有代码洁癖的优秀程序员。
动态调整策略：当一个证明步骤耗时过长（例如超过60秒），模型会判断这可能是一个死胡同，并主动放弃当前路径，重构证明，尝试新的方法。
从反馈中深度学习：在附录的案例中可以看到，模型在多次失败后，通过仔细分析REPL返回的复杂代数表达式，最终顿悟了问题的核心——一个基于平方和的代数恒等式，从而一举解决了问题。这种从具体反馈中抽象出数学本质的能力，是通往真正数学智能的关键一步。

动画3：交互次数的力量 (miniF2F-test 数据)

这张图表（基于论文图4）显示了成功证明所需的交互次数分布。大部分问题（约3500个）在1次交互内就解决了，但仍有相当数量的问题（超过1000个）需要2次或更多的交互。这证明了“对话”和“反思”机制的巨大价值，它让模型能够攻克那些初见时难以解决的硬骨头。

我们还发现，模型的性能与其“思考”的深度（即允许的最大生成长度）正相关。当我们将最大长度从4096个token增加到20480个token时，成功率从58.3%稳步提升到了70.0%。这说明，给予模型更多的思考空间和时间，它就能通过更长的“对话”链条，解决更复杂的问题。

动画4：思维流场的可视化

生活化类比：这个动画并没有直接模拟某个具体过程，而是象征着StepFun-Prover在解决问题时，其内部“思维”的流动状态。无数的“想法粒子”在由问题结构决定的“逻辑场”中穿梭、汇聚、演化，最终形成一条通往答案的清晰路径。这代表了模型通过强化学习获得的、那种难以言喻却又高效的解题“直觉”。

技术附录：幕后工程的艺术

A. Lean 4 REPL 远程服务器：为大规模训练铺平道路

强化学习，尤其是需要与外部工具频繁交互的强化学习，对计算资源和系统稳定性是巨大的考验。想象一下，在训练高峰期，我们需要同时处理数千个模型实例，每个实例都在与自己的Lean 4验证器进行高频次的“对话”。任何一个环节的延迟或崩溃，都会导致整个训练流程的停滞。

为了解决这个工程难题，我们设计并实现了一个高性能、高可用的Lean4-REPL远程服务器。其架构采用了经典的“生产者-中间人-消费者”（Producer-Broker-Consumer）模式。

生产者 (Producer)：我们的LLM训练集群。它们源源不断地生成证明草稿（sketch）。
中间人 (Broker)：我们使用了一个高性能的内存数据库Redis作为消息队列。它像一个巨大的、高效的邮局，负责接收所有来自生产者的“信件”（证明任务），并将其分发给消费者。
消费者 (Consumer)：一个由超过1000个并发运行的Lean4-REPL进程组成的庞大集群。它们从Redis获取任务，执行验证，然后将结果（feedback）发回。

这种异步、解耦的架构带来了巨大的好处：首先，它极大地提升了效率，LLM的生成和REPL的验证可以并行不悖，互不等待，整体训练速度提升了超过10倍。其次，它增强了系统的鲁棒性，即使部分REPL进程崩溃，也不会影响整个训练大局，保证了研究的顺利进行。我们还对Lean4-REPL本身进行了内存管理优化，并贡献给了社区。

示意图2：Lean4-REPL 远程服务器架构

B. 训练数据筛选：只给模型“跳一跳才能够得着”的难题

在强化学习中，训练数据的质量至关重要。如果我们总是给模型太简单的问题，它会“不思进取”；如果总是给太难的问题，它又会“习得性无助”。我们需要的，是那些“恰到好处”的、能激发模型潜能的问题。

为此，我们设计了一种动态的、在训练过程中进行的数据筛选策略。我们不是在训练开始前就定好所有题目，而是在RL训练的循环中，持续评估每个问题的“价值”。我们用一个辅助模型，对备选问题池进行初步测试，并计算每个问题的成功率。

我们只保留那些成功率严格介于0和1之间的问题。这意味着，我们剔除了那些模型总能轻易解决的“送分题”（成功率=1），也剔除了那些在当前能力下无论如何也解决不了的“天书”（成功率=0）。我们只聚焦于那些模型“时而能解，时而不能解”的问题。这些问题，正是驱动模型能力提升的“最佳营养品”。随着模型能力的增强，这个“最佳问题集”也会动态地发生变化，确保训练始终在模型的“最近发展区”进行。

动画5：动态数据筛选

生活化类比：想象一个智能健身APP，它会根据你最近的锻炼表现，动态调整你的训练计划。太轻松的项目会被替换，太难的项目会暂时搁置，APP总是为你推荐那些最具挑战性、最能促进你成长的训练。

模型能力: 50 | 筛选问题难度: 0

结论与展望：迈向数学发现的新纪元

通过StepFun-Prover，我们证明了，让大型语言模型学会像人一样“思考-验证-反思”是完全可行的，并且能带来巨大的性能提升。我们提出的端到端训练框架，包括冷启动、响应模式融合、工具集成强化学习以及高效的工程实现，为该领域的研究者提供了一套强有力的蓝图。

这仅仅是一个开始。我们的下一步，是探索如何将这种在形式化系统中锤炼出的严谨推理能力，“迁移”回通用语言模型中，以提升它们在更广泛领域的逻辑思维能力。我们还梦想着构建一个由多个AI智能体（Agent）组成的系统，它们可以互相协作、辩论，共同探索未知的数学疆域，甚至做出真正原创性的数学发现。

我们相信，一个由人类智慧引导、由机器智能驱动的数学研究新范式，正在地平线上冉冉升起。而我们，有幸成为这场伟大变革的亲历者和推动者。