扩展强化学习：通过长期训练解锁大语言模型的多样化推理能力

摘要 (Nature-Style Summary)

近年来，大型语言模型（LLMs）在处理复杂推理任务（如数学和代码生成）方面取得了显著进展，这主要归功于通过思维链（Chain-of-Thought）和迭代探索等方法扩展了测试时计算。这些突破的核心驱动力是大规模强化学习（RL），特别是当与可验证的奖励信号相结合时，能够提供客观且有根据的监督。然而，如何稳定、高效地进行长期RL训练，以充分释放小型模型的潜力，仍然是一个开放性挑战。在此，我们报告了一项关于在多样化推理领域对一个1.5B参数量的小型语言模型进行长期强化学习的研究。我们发现，成功的训练框架依赖于几个关键要素：使用具有可验证奖励的任务、对现有策略优化算法（GRPO）的改进、以及一系列旨在提高训练稳定性和泛化能力的实用技术。我们引入了受控的KL散度正则化、解耦的裁剪比率以及周期性的参考策略重置，这些被证明是解锁长期性能增长的关键。与强大的基线模型相比，我们的模型在数学（+14.7%）、编程（+13.9%）和逻辑谜题（+54.8%）等任务上取得了显著的性能提升。这项工作证明，通过精心设计的长期训练策略，小型模型也能够获得强大的、跨领域的推理能力，为开发更高效、更普及的AI系统提供了新的途径。我们公开发布了我们的模型，以促进该领域的持续研究。

引言：超越模仿，学会“思考”

大家好，我们是NVIDIA的研究团队。今天，我想和大家分享一段激动人心的探索之旅：我们是如何教会一个相对小型的语言模型，像一个真正的思考者那样，去解决复杂问题的。

在人工智能的世界里，我们经常使用一种叫做“监督微调”（Supervised Finetuning, SFT）的方法来训练模型。这就像是给学生一本标准答案，让他们去背诵。这种方法在很多任务上效果不错，但它有一个根本的局限：模型学会的是“模仿”，而不是真正的“推理”。当遇到一个全新的、没有标准答案的问题时，它往往会束手无策。

为了突破这个瓶颈，我们转向了一种更强大的训练范式：强化学习（Reinforcement Learning, RL）。如果说SFT是死记硬背，那么RL更像是让学生亲自下场解决问题。我们会给模型一个目标（比如“解出这道数学题”），然后让它自己去尝试。做对了，就给它一个“奖励”；做错了，就让它从失败中学习。这个过程不提供标准答案，而是通过结果反馈来引导模型自己发现解决问题的策略。

然而，真正的挑战在于，如何让这个“学习过程”持续下去，而不是浅尝辄止？我们的研究核心，就是探索“长期训练”（Prolonged Training）的奥秘。这就像培养一位顶尖的运动员，不是靠一次集训就能成功的，而是需要日复一日、年复一年的持续练习、反思和调整。我们发现，通过一系列精心设计的技术，即使是小模型，也能在长时间的“刻意练习”中，涌现出惊人的、跨领域的推理能力。接下来，我将带大家一步步揭开其中的奥秘。

挑战一：警惕“思维固化”的陷阱——熵塌陷

在强化学习的初期，我们遇到了一个非常棘手的问题，我们称之为“熵塌陷”（Entropy Collapse）。这是一个听起来很学术的词，但它的概念非常直观。

想象一下，一个初学绘画的学生，偶然间画出了一幅很受欢迎的猫。于是，在接下来的日子里，为了不断获得赞美（也就是RL中的“奖励”），他开始只画这种风格的猫。他的技巧越来越熟练，但他的创作世界却变得越来越窄。他不再尝试画狗、画风景、画人物，最终，他成了一个只会画一种猫的“画匠”，而不是一个富有创造力的“艺术家”。

这就是熵塌陷。在模型训练中，“熵”可以理解为模型输出的多样性或“创造力”。训练初期，模型会探索各种不同的答案。但一旦它发现某一种回答方式能稳定地获得奖励，它就会倾向于“固化”这种行为模式，输出的答案变得越来越单一，熵急剧下降。这种“思维固化”是致命的，因为它扼杀了模型探索更优解的可能性，导致训练过早陷入停滞。

为了让大家更直观地理解这个过程，我们制作了下面的交互动画。你可以看到，代表不同答案的“粒子”最初是广泛分布的，但随着“奖励”的引导，它们很快就聚集到一个狭窄的区域，这就是熵塌陷的过程。

动画一：熵塌陷的可视化

生活化类比：一个创意团队在头脑风暴。起初，各种想法（粒子）百花齐放。但当某个想法获得初步成功（奖励）后，所有人开始跟风，最终导致思想趋同，创新停滞。

当前熵 (多样性): 高

我们的对策（一）：用“开放心态”与“动态锚点”打破僵局

为了对抗“熵塌陷”，我们采取了一套组合拳。首先，我们改进了核心的优化算法，引入了DAPO中的一些思想，特别是“解耦裁剪”（Decoupled Clipping）。

这可以理解为调整模型的“心态”。在标准的PPO算法中，模型更新策略时有一个“裁剪”范围，防止它步子迈得太大而变得不稳定。这个范围对“好点子”和“坏点子”的容忍度是一样的。而我们认为，应该对“好点子”更开放一些。通过解耦裁剪，我们为可能带来更高奖励的探索性尝试（好点子）设置了一个更宽松的上限 \( (1+\epsilon_{high}) \)，同时对可能导致性能下降的尝试（坏点子）保持一个严格的下限 \( (1-\epsilon_{low}) \)。这相当于告诉模型：“大胆去尝试那些看起来有潜力的新方法，但也要守住底线。”

动画二：解耦裁剪的“开放心态”

类比：一位投资者在调整投资组合。对于潜力巨大的初创公司（高奖励信号），他愿意承担更高风险，投入更多资金（更大的更新步长 \(\epsilon_{high}\)）。而对于不确定的资产，他则保持谨慎（更小的更新步长 \(\epsilon_{low}\)）。

更新幅度: 0.00

然而，光有开放的心态还不够。我们还面临另一个问题：模型在探索时，不能像脱缰的野马一样乱跑。我们需要一个“锚点”来保证其稳定性，这个锚点就是KL散度正则化。它通过计算当前策略与一个固定“参考策略”（通常是训练开始时的模型）的差异，来防止模型“忘本”。

但这又带来了新问题：如果锚点永远固定在起点，那么模型探索得越远，受到的“拉力”就越大，最终还是会被困住。这就像一个登山者，虽然在向上攀登，但腰间的绳子始终系在山脚的营地，他永远无法登顶。

我们的解决方案是：周期性地重置参考策略，或者叫“移动锚点”。当模型已经取得了显著进步后，我们就把这个“锚点”移动到它当前所在的新位置。这样，模型就可以在新的、更高的起点上，继续安心地向更远处探索。这个简单的操作，极大地解放了模型的学习潜力，是实现长期训练的关键一步。

动画三：移动锚点——周期性策略重置

类比：一位星际探险家。参考策略是母舰，当前策略是探索飞船。飞船飞得太远，与母舰的通信（KL散度）就会变差。当飞船发现一个宜居星球（性能提升）后，母舰会直接跃迁到这个新星球，作为新的探索基地（重置参考策略）。

KL散度 (与锚点的距离): 0.00

我们的对策（二）：在“知识的海洋”中学习

一个强大的推理模型，不能是“偏科生”。如果只用数学题来训练它，它可能会成为一个数学天才，但遇到编程问题或逻辑谜题时就会一筹莫展。我们相信，多样化的训练数据是培养通用推理能力的基础。

因此，我们为模型构建了一个极其丰富的“知识海洋”，涵盖了五大核心领域：

数学：来自各种国际竞赛的难题，考验严谨的逻辑和计算能力。
编程：真实的编程竞赛题目，要求模型不仅要理解问题，还要生成正确、高效的代码。
科学、技术、工程和数学（STEM）：涵盖物理、化学、生物等领域的科学问题，需要跨学科的知识和推理。
逻辑谜题：如图论、代数、甚至数独和魔方等游戏，锻炼模型抽象和策略规划的能力。
指令遵循：看似简单但至关重要，确保模型能准确理解并执行复杂的指令。

让模型同时在这些截然不同的领域中学习，就像让一个人同时学习多种语言和技能。这不仅拓宽了它的知识面，更重要的是，它能从中学会触类旁通，提炼出更普适、更底层的“推理元能力”。这种能力，正是我们追求的通用人工智能的雏形。

静态图一：多样化数据源

我们的模型从数学、编程、STEM、逻辑谜题和指令遵循等多个领域汲取养分，构建通用的推理能力。

最终成果：一个更“聪明”的小模型

经过这一系列艰苦而细致的长期训练，我们的模型（Nemotron-Research-Reasoning-Qwen-1.5B）取得了令人振奋的成果。与训练前的基线模型（DeepSeek-R1-Distill-Qwen-1.5B）相比，它在各个领域都实现了巨大的飞跃。

更重要的是，当我们将它与那些专门为特定领域（如数学或编程）优化的“专科”模型进行比较时，我们发现，我们这个“全科”发展的模型，其表现竟然不相上下，甚至在某些方面有所超越。这有力地证明了我们的核心观点：通过在多样化任务上进行精心设计的长期强化学习，通用模型可以获得与专用模型相媲美的强大推理能力。

为了展示我们训练过程的动态性，下面的图表复现了我们论文中的部分关键训练指标。你可以看到，KL散度和熵在“重置”点发生了显著变化，而平均奖励分数则稳步提升，这正是我们期望看到的健康训练状态。

静态图二：训练动态概览

展示了KL散度（左）和平均奖励（右）在多次“重置”过程中的变化趋势。KL散度的周期性下降和奖励的持续上升，标志着稳定而有效的学习过程。

终极想象：推理的“流场”

经过这一切，我们最终得到的模型，其内部的“思考”过程是怎样的呢？我们不再认为它是一系列僵硬的、线性的逻辑推导。相反，我们更愿意将其想象成一个复杂而优美的“思维流场”（Flow Field of Thought）。

在这个场中，每一个“想法”或“推理步骤”都像一个粒子，它们不是盲目地移动，而是跟随着一个由模型全部知识和经验所构成的、无形的、动态的力场。这个力场引导着粒子们绕过障碍，汇入主流，最终形成通往答案的优雅路径。这个过程充满了随机性与确定性的和谐统一，既有章法可循，又总能带来意想不到的惊喜。

下面的动画，是我们对这种“思维流场”的艺术化诠释。它由算法驱动，没有预设的轨迹，每一个粒子的运动都是根据其所在位置的“场力”实时计算出来的。我们希望，这个生生不息、永不重复的画面，能让你感受到我们所追求的那种深邃、动态且富有生命力的机器智能。

动画四：思维流场

生活化类比：想象无数微小的荧光浮游生物，在深海中跟随着洋流优雅地舞动，它们的轨迹汇聚成了壮丽的光之河。

技术附录：核心公式解读

为了方便感兴趣的读者深入了解，这里我们对研究中涉及的核心算法和公式进行简要说明。

1. 组相对策略优化 (Group Relative Policy Optimization, GRPO)

我们使用的核心强化学习算法是GRPO。与传统的PPO算法不同，它移除了价值网络，转而使用一组（group）采样结果的得分来估计优势函数，从而简化了模型结构。其目标函数可以表示为： \[ L(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \min \left( r_\theta(\tau) A(\tau), \text{clip}(r_\theta(\tau), 1-\epsilon, 1+\epsilon) A(\tau) \right) \right] \] 其中，\(\tau\) 是从当前策略 \(\pi_\theta\) 采样得到的一个完整回答（trajectory）。\(r_\theta(\tau) = \frac{\pi_\theta(\tau)}{\pi_{\text{old}}(\tau)}\) 是新旧策略的概率比。关键在于优势函数 \(A(\tau)\) 的计算： \[ A(\tau) = \frac{R_{\tau} - \text{mean}(\{R_i\}_{i \in G(\tau)})}{\text{std}(\{R_i\}_{i \in G(\tau)})} \] 这里的 \(R_\tau\) 是当前回答 \(\tau\) 的奖励分数，而 \(\{R_i\}_{i \in G(\tau)}\) 是与 \(\tau\) 在同一批次中、针对同一提示（prompt）生成的其他所有回答的奖励分数集合。简单来说，一个回答的“优势”不再是与一个预估的平均值比较，而是直接与“同场竞技”的其他回答的分数进行比较，好坏一目了然。

2. KL散度正则化与参考策略重置

为了在训练中保持稳定并防止策略漂移过远，我们在损失函数中加入了一个KL散度惩罚项。最终的损失函数变为： \[ L_{\text{KL-RL}}(\theta) = L_{\text{GRPO}}(\theta) - \beta D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) \] 这里的 \(\pi_{\text{ref}}\) 就是我们之前提到的“参考策略”或“锚点”，\(\beta\) 是一个控制惩罚力度的超参数。\(D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}})\) 衡量了当前策略与参考策略之间的“距离”。这个距离越大，惩罚就越重，从而将策略“拉回”到参考策略附近。
参考策略重置的操作，在数学上就是： \[ \pi_{\text{ref}} \leftarrow \pi_{\theta_{\text{current}}} \] 在训练进行到某个检查点时，我们会将参考策略 \(\pi_{\text{ref}}\) 直接更新为当前训练得最好的策略 \(\pi_{\theta_{\text{current}}}\)。这使得KL散度项归零，为模型在新的基础上继续探索创造了空间。