扩展强化学习:通过长期训练解锁LLM的多样化推理能力

NVIDIA 的研究团队为您解读

摘要 (Nature-Style Summary)

近年来,大型语言模型(LLMs)在处理复杂推理任务(如数学和代码生成)方面取得了显著进展,这主要归功于通过思维链(Chain-of-Thought)和迭代探索等方法扩展了测试时计算。这些突破的核心驱动力是大规模强化学习(RL),特别是当与可验证的奖励信号相结合时,能够提供客观且有根据的监督。然而,如何稳定、高效地进行长期RL训练,以充分释放小型模型的潜力,仍然是一个开放性挑战。在此,我们报告了一项关于在多样化推理领域对一个1.5B参数量的小型语言模型进行长期强化学习的研究。我们发现,成功的训练框架依赖于几个关键要素:使用具有可验证奖励的任务、对现有策略优化算法(GRPO)的改进、以及一系列旨在提高训练稳定性和泛化能力的实用技术。我们引入了受控的KL散度正则化、解耦的裁剪比率以及周期性的参考策略重置,这些被证明是解锁长期性能增长的关键。与强大的基线模型相比,我们的模型在数学(+14.7%)、编程(+13.9%)和逻辑谜题(+54.8%)等任务上取得了显著的性能提升。这项工作证明,通过精心设计的长期训练策略,小型模型也能够获得强大的、跨领域的推理能力,为开发更高效、更普及的AI系统提供了新的途径。我们公开发布了我们的模型,以促进该领域的持续研究。

引言:超越模仿,学会“思考”

大家好,我们是NVIDIA的研究团队。今天,我想和大家分享一段激动人心的探索之旅:我们是如何教会一个相对小型的语言模型,像一个真正的思考者那样,去解决复杂问题的。

在人工智能的世界里,我们经常使用一种叫做“监督微调”(Supervised Finetuning, SFT)的方法来训练模型。这就像是给学生一本标准答案,让他们去背诵。这种方法在很多任务上效果不错,但它有一个根本的局限:模型学会的是“模仿”,而不是真正的“推理”。当遇到一个全新的、没有标准答案的问题时,它往往会束手无策。

为了突破这个瓶颈,我们转向了一种更强大的训练范式:强化学习(Reinforcement Learning, RL)。如果说SFT是死记硬背,那么RL更像是让学生亲自下场解决问题。我们会给模型一个目标(比如“解出这道数学题”),然后让它自己去尝试。做对了,就给它一个“奖励”;做错了,就让它从失败中学习。这个过程不提供标准答案,而是通过结果反馈来引导模型自己发现解决问题的策略。

然而,真正的挑战在于,如何让这个“学习过程”持续下去,而不是浅尝辄止?我们的研究核心,就是探索“长期训练”(Prolonged Training)的奥秘。这就像培养一位顶尖的运动员,不是靠一次集训就能成功的,而是需要日复一日、年复一年的持续练习、反思和调整。我们发现,通过一系列精心设计的技术,即使是小模型,也能在长时间的“刻意练习”中,涌现出惊人的、跨领域的推理能力。接下来,我将带大家一步步揭开其中的奥秘。

挑战一:警惕“思维固化”的陷阱——熵塌陷

在强化学习的初期,我们遇到了一个非常棘手的问题,我们称之为“熵塌陷”(Entropy Collapse)。这是一个听起来很学术的词,但它的概念非常直观。

想象一下,一个初学绘画的学生,偶然间画出了一幅很受欢迎的猫。于是,在接下来的日子里,为了不断获得赞美(也就是RL中的“奖励”),他开始只画这种风格的猫。他的技巧越来越熟练,但他的创作世界却变得越来越窄。他不再尝试画狗、画风景、画人物,最终,他成了一个只会画一种猫的“画匠”,而不是一个富有创造力的“艺术家”。

这就是熵塌陷。在模型训练中,“熵”可以理解为模型输出的多样性或“创造力”。训练初期,模型会探索各种不同的答案。但一旦它发现某一种回答方式能稳定地获得奖励,它就会倾向于“固化”这种行为模式,输出的答案变得越来越单一,熵急剧下降。这种“思维固化”是致命的,因为它扼杀了模型探索更优解的可能性,导致训练过早陷入停滞。

为了让大家更直观地理解这个过程,我们制作了下面的交互动画。你可以看到,代表不同答案的“粒子”最初是广泛分布的,但随着“奖励”的引导,它们很快就聚集到一个狭窄的区域,这就是熵塌陷的过程。

动画一:熵塌陷的可视化

生活化类比:一个创意团队在头脑风暴。起初,各种想法(粒子)百花齐放。但当某个想法获得初步成功(奖励)后,所有人开始跟风,最终导致思想趋同,创新停滞。

当前熵 (多样性):

我们的对策(一):用“开放心态”与“动态锚点”打破僵局

为了对抗“熵塌陷”,我们采取了一套组合拳。首先,我们改进了核心的优化算法,引入了DAPO中的一些思想,特别是“解耦裁剪”(Decoupled Clipping)

这可以理解为调整模型的“心态”。在标准的PPO算法中,模型更新策略时有一个“裁剪”范围,防止它步子迈得太大而变得不稳定。这个范围对“好点子”和“坏点子”的容忍度是一样的。而我们认为,应该对“好点子”更开放一些。通过解耦裁剪,我们为可能带来更高奖励的探索性尝试(好点子)设置了一个更宽松的上限 \( (1+\epsilon_{high}) \),同时对可能导致性能下降的尝试(坏点子)保持一个严格的下限 \( (1-\epsilon_{low}) \)。这相当于告诉模型:“大胆去尝试那些看起来有潜力的新方法,但也要守住底线。”

动画二:解耦裁剪的“开放心态”

类比:一位投资者在调整投资组合。对于潜力巨大的初创公司(高奖励信号),他愿意承担更高风险,投入更多资金(更大的更新步长 \(\epsilon_{high}\))。而对于不确定的资产,他则保持谨慎(更小的更新步长 \(\epsilon_{low}\))。

更新幅度: 0.00

然而,光有开放的心态还不够。我们还面临另一个问题:模型在探索时,不能像脱缰的野马一样乱跑。我们需要一个“锚点”来保证其稳定性,这个锚点就是KL散度正则化。它通过计算当前策略与一个固定“参考策略”(通常是训练开始时的模型)的差异,来防止模型“忘本”。

但这又带来了新问题:如果锚点永远固定在起点,那么模型探索得越远,受到的“拉力”就越大,最终还是会被困住。这就像一个登山者,虽然在向上攀登,但腰间的绳子始终系在山脚的营地,他永远无法登顶。

我们的解决方案是:周期性地重置参考策略,或者叫“移动锚点”。当模型已经取得了显著进步后,我们就把这个“锚点”移动到它当前所在的新位置。这样,模型就可以在新的、更高的起点上,继续安心地向更远处探索。这个简单的操作,极大地解放了模型的学习潜力,是实现长期训练的关键一步。

动画三:移动锚点——周期性策略重置

类比:一位星际探险家。参考策略是母舰,当前策略是探索飞船。飞船飞得太远,与母舰的通信(KL散度)就会变差。当飞船发现一个宜居星球(性能提升)后,母舰会直接跃迁到这个新星球,作为新的探索基地(重置参考策略)。

KL散度 (与锚点的距离): 0.00

我们的对策(二):在“知识的海洋”中学习

一个强大的推理模型,不能是“偏科生”。如果只用数学题来训练它,它可能会成为一个数学天才,但遇到编程问题或逻辑谜题时就会一筹莫展。我们相信,多样化的训练数据是培养通用推理能力的基础。

因此,我们为模型构建了一个极其丰富的“知识海洋”,涵盖了五大核心领域:

  • 数学:来自各种国际竞赛的难题,考验严谨的逻辑和计算能力。
  • 编程:真实的编程竞赛题目,要求模型不仅要理解问题,还要生成正确、高效的代码。
  • 科学、技术、工程和数学(STEM):涵盖物理、化学、生物等领域的科学问题,需要跨学科的知识和推理。
  • 逻辑谜题:如图论、代数、甚至数独和魔方等游戏,锻炼模型抽象和策略规划的能力。
  • 指令遵循:看似简单但至关重要,确保模型能准确理解并执行复杂的指令。

让模型同时在这些截然不同的领域中学习,就像让一个人同时学习多种语言和技能。这不仅拓宽了它的知识面,更重要的是,它能从中学会触类旁通,提炼出更普适、更底层的“推理元能力”。这种能力,正是我们追求的通用人工智能的雏形。

静态图一:多样化数据源

我们的模型从数学、编程、STEM、逻辑谜题和指令遵循等多个领域汲取养分,构建通用的推理能力。

LLM 数学 编程 STEM 逻辑 指令

最终成果:一个更“聪明”的小模型

经过这一系列艰苦而细致的长期训练,我们的模型(Nemotron-Research-Reasoning-Qwen-1.5B)取得了令人振奋的成果。与训练前的基线模型(DeepSeek-R1-Distill-Qwen-1.5B)相比,它在各个领域都实现了巨大的飞跃。

更重要的是,当我们将它与那些专门为特定领域(如数学或编程)优化的“专科”模型进行比较时,我们发现,我们这个“全科”发展的模型,其表现竟然不相上下,甚至在某些方面有所超越。这有力地证明了我们的核心观点:通过在多样化任务上进行精心设计的长期强化学习,通用模型可以获得与专用模型相媲美的强大推理能力。

为了展示我们训练过程的动态性,下面的图表复现了我们论文中的部分关键训练指标。你可以看到,KL散度和熵在“重置”点发生了显著变化,而平均奖励分数则稳步提升,这正是我们期望看到的健康训练状态。

静态图二:训练动态概览

展示了KL散度(左)和平均奖励(右)在多次“重置”过程中的变化趋势。KL散度的周期性下降和奖励的持续上升,标志着稳定而有效的学习过程。

KL Divergence Reset Average Reward

终极想象:推理的“流场”

经过这一切,我们最终得到的模型,其内部的“思考”过程是怎样的呢?我们不再认为它是一系列僵硬的、线性的逻辑推导。相反,我们更愿意将其想象成一个复杂而优美的“思维流场”(Flow Field of Thought)

在这个场中,每一个“想法”或“推理步骤”都像一个粒子,它们不是盲目地移动,而是跟随着一个由模型全部知识和经验所构成的、无形的、动态的力场。这个力场引导着粒子们绕过障碍,汇入主流,最终形成通往答案的优雅路径。这个过程充满了随机性与确定性的和谐统一,既有章法可循,又总能带来意想不到的惊喜。

下面的动画,是我们对这种“思维流场”的艺术化诠释。它由算法驱动,没有预设的轨迹,每一个粒子的运动都是根据其所在位置的“场力”实时计算出来的。我们希望,这个生生不息、永不重复的画面,能让你感受到我们所追求的那种深邃、动态且富有生命力的机器智能。

动画四:思维流场

生活化类比:想象无数微小的荧光浮游生物,在深海中跟随着洋流优雅地舞动,它们的轨迹汇聚成了壮丽的光之河。

技术附录:核心公式解读

为了方便感兴趣的读者深入了解,这里我们对研究中涉及的核心算法和公式进行简要说明。

1. 组相对策略优化 (Group Relative Policy Optimization, GRPO)

我们使用的核心强化学习算法是GRPO。与传统的PPO算法不同,它移除了价值网络,转而使用一组(group)采样结果的得分来估计优势函数,从而简化了模型结构。其目标函数可以表示为: \[ L(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \min \left( r_\theta(\tau) A(\tau), \text{clip}(r_\theta(\tau), 1-\epsilon, 1+\epsilon) A(\tau) \right) \right] \] 其中,\(\tau\) 是从当前策略 \(\pi_\theta\) 采样得到的一个完整回答(trajectory)。\(r_\theta(\tau) = \frac{\pi_\theta(\tau)}{\pi_{\text{old}}(\tau)}\) 是新旧策略的概率比。关键在于优势函数 \(A(\tau)\) 的计算: \[ A(\tau) = \frac{R_{\tau} - \text{mean}(\{R_i\}_{i \in G(\tau)})}{\text{std}(\{R_i\}_{i \in G(\tau)})} \] 这里的 \(R_\tau\) 是当前回答 \(\tau\) 的奖励分数,而 \(\{R_i\}_{i \in G(\tau)}\) 是与 \(\tau\) 在同一批次中、针对同一提示(prompt)生成的其他所有回答的奖励分数集合。简单来说,一个回答的“优势”不再是与一个预估的平均值比较,而是直接与“同场竞技”的其他回答的分数进行比较,好坏一目了然。

2. KL散度正则化与参考策略重置

为了在训练中保持稳定并防止策略漂移过远,我们在损失函数中加入了一个KL散度惩罚项。最终的损失函数变为: \[ L_{\text{KL-RL}}(\theta) = L_{\text{GRPO}}(\theta) - \beta D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) \] 这里的 \(\pi_{\text{ref}}\) 就是我们之前提到的“参考策略”或“锚点”,\(\beta\) 是一个控制惩罚力度的超参数。\(D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}})\) 衡量了当前策略与参考策略之间的“距离”。这个距离越大,惩罚就越重,从而将策略“拉回”到参考策略附近。
参考策略重置的操作,在数学上就是: \[ \pi_{\text{ref}} \leftarrow \pi_{\theta_{\text{current}}} \] 在训练进行到某个检查点时,我们会将参考策略 \(\pi_{\text{ref}}\) 直接更新为当前训练得最好的策略 \(\pi_{\theta_{\text{current}}}\)。这使得KL散度项归零,为模型在新的基础上继续探索创造了空间。