向通用人工智能发起最后的冲刺（清华小组手记）

摘要 (Nature 风格)

推理，作为一种规划和执行复杂目标导向行动序列的过程，始终是人工智能（AI）领域的核心挑战。当前的大型语言模型（LLMs）主要依赖“思维链”（Chain-of-Thought, CoT）技术，但该方法存在任务分解脆弱、数据需求庞大及高延迟等问题。受人脑中分层级、多时间尺度的信息处理机制启发，我们提出了层级推理模型（Hierarchical Reasoning Model, HRM），这是一种新颖的循环神经网络架构。它在保持训练稳定性和效率的同时，获得了显著的计算深度。HRM通过两个相互依赖的循环模块——一个负责缓慢、抽象规划的高层模块和一个处理快速、细节计算的低层模块——在单次前向传播中执行序贯推理任务，且无需对中间过程进行显式监督。仅凭2700万参数和1000个训练样本，HRM便在复杂的推理任务上取得了卓越性能。该模型无需预训练或CoT数据，却在包括高难度数独谜题和大型迷宫最优路径寻找等挑战性任务上达到了近乎完美的表现。此外，在衡量通用人工智能能力的关键基准——抽象与推理语料库（ARC）上，HRM的表现也超越了体量远大于它、上下文窗口更长的模型。这些结果凸显了HRM作为迈向通用计算和通用推理系统的变革性进展的巨大潜力。我们认为，这种受大脑启发的层级结构，为突破当前AI推理瓶颈提供了一条充满希望的新路径，可能是通往真正通用人工智能（AGI）的最后冲刺中，不可或缺的一块拼图。

一、梦的起点：当“大力”遇上“慢思考”

大家好，我是这项研究的一员。今天，我想和大家分享的，不仅仅是一篇论文，更是一段激动人心的探索旅程，一个关于如何让AI学会“深度思考”的故事。

我们身处一个由大型语言模型（LLMs）驱动的时代。它们像知识渊博的“万事通”，能写诗、能编程，几乎无所不能。但我们团队内部，总有一种隐忧：这些模型真的在“思考”吗？还是只是在进行一种极其复杂的“模式匹配”？当我们让它们解决一些需要多步、严谨逻辑推理的问题，比如解一个复杂的数独，或者在没有明显提示的迷宫里找路时，它们往往会“掉链子”。

它们目前的主流方法，叫做“思维链”（CoT），就像一个小学生做应用题，必须一步一步把思考过程写下来。比如，“小明有5个苹果，妈妈又给了他3个，现在有几个？” 它会先生成“5+3”，然后再生成“=8”。这看起来很智能，但问题在于，这个过程非常脆弱。只要中间一步想错了，或者顺序颠倒了，整个推理链条就可能崩溃。更重要的是，这种方式极度依赖海量的数据去“背诵”这些解题步骤，而且因为要生成大量中间文本，反应速度很慢。

生活化类比： 想象一下，现在的LLM就像一个记忆力超群、反应极快的短跑运动员。你让他跑100米，他风驰电掣。但你让他去参加一场马拉松，他可能跑了几公里就因为不知道如何分配体力、如何应对途中的突发状况而迷失了方向。他擅长的是瞬间的、爆发性的任务，而不是需要长远规划、持续调整的“慢思考”。

我们意识到，真正的智能，不应该仅仅是语言的“外壳”，而应该是深藏于内的“思想内核”。人脑在进行复杂推理时，并不会在脑海里把每一步都用语言默念一遍。我们有一个宏观的规划，然后在细节上快速演算，不断迭代。这个过程，是“潜意识”的，是高效的，是深度的。

这便是我们梦的起点：我们能否创造一个AI模型，它能像人脑一样，拥有一个“快系统”和一个“慢系统”，一个负责执行，一个负责规划？一个能进行真正的“潜意识推理”？于是，层级推理模型（HRM） 的构想，便在无数次的讨论和脑力激荡中，破土而出。

动画1：两种推理模式的对决

这个动画直观展示了传统LLM的“思维链”（CoT）与我们HRM的“层级推理”的区别。左侧的CoT像一条直线，一步错，全盘输。右侧的HRM则像一个探索的循环，不断从宏观规划（蓝色大球）指导微观探索（彩色小球），并根据反馈进行修正，展现了更强的鲁棒性和深度。

二、HRM的核心设计：大脑中的“CEO”与“项目经理”

人脑的智慧，很大程度上源于其精妙的结构。特别是大脑皮层，它并非一个“大一统”的处理器，而是由不同区域构成的层级结构。有些区域（如前额叶皮层）像公司的CEO，思考缓慢但长远，负责制定战略目标；另一些区域（如感觉皮层）则像项目经理和执行团队，反应迅速，处理具体的、即时的信息。它们通过不同频率的“脑电波”（如慢的Theta波和快的Gamma波）进行沟通，形成了一种高效的协同工作模式。

我们的HRM模型，正是对这一生物学原理的直接致敬。它内部也包含两个核心的循环模块：

高层模块 (H-module)：这就是我们模型中的“CEO”。它更新速度慢，视野宏大，负责存储整个任务的抽象规划和长期记忆。它不关心每一步的具体计算，只关心阶段性的成果和下一步的宏观方向。
低层模块 (L-module)：这是“项目经理”和他的团队。它更新速度快，在一个由“CEO”设定的宏观指令下，进行大量的、快速的、细节的计算和探索。

这两个模块的工作流程是这样的：

“CEO”（H模块）发布一个阶段性指令，比如“先尝试填满数独的第一行”。
“项目经理”（L模块）接收指令，然后带领团队在自己的小本本上快速演算、试错，进行 \(T\) 次（比如10次）内部迭代。
完成这 \(T\) 次计算后，L模块形成一个“阶段性报告”（它最终的内部状态），提交给H模块。
H模块审阅这份报告，更新自己的全局战略图景，然后发布下一个阶段性指令。比如，“很好，第一行完成了，现在根据这个结果，我们来攻克左上角的3x3方格”。

这个过程循环往复，我们称之为“层级收敛”（Hierarchical Convergence）。它巧妙地解决了传统循环网络（RNN）的一个致命缺陷：过早收敛。普通RNN就像一个只有一个人的团队，跑着跑着就累了，计算活动很快就停滞了。而HRM通过H模块不断给L模块“重启”和“赋能”，让计算的火焰持续燃烧，从而获得了前所未有的有效计算深度。

图示1：HRM的“组织架构图”

这张图清晰地展示了HRM的内部工作流。输入信息首先被编码，然后进入H-L模块的协作循环。H模块（高层）像一个慢速的时钟，每滴答一次，L模块（低层）就像一个快速的齿轮组，飞速旋转一个周期，完成子任务的计算。最终，由H模块的最终状态生成输出。

动画2：观察“层级收敛”的魔力

这个动画展示了HRM内部状态的演化。橙色轨迹代表“CEO”（H模块），它缓慢而稳定地向最终目标（绿色星星）移动。蓝色轨迹代表“项目经理”（L模块），它在每个大周期内快速探索并收敛到一个局部解，然后被H模块的更新“重置”到新的起点。注意看蓝色轨迹如何一次次“脉冲式”地探索，而橙色轨迹则稳步前进。

H模块步数: 0

L模块步数 (本轮): 0

三、训练的艺术：轻巧的“一步梯度”与自适应的“思考时间”

有了精妙的结构，还需要聪明的训练方法。传统的循环网络训练方法（BPTT）非常“笨重”，它需要记录下每一步的计算历史，内存开销巨大，而且在生物学上也不太可能存在。我们借鉴了深度均衡模型（DEQ）的思想，提出了一种“一步梯度近似”的训练技巧。

生活化类比： 传统的BPTT就像项目复盘时，CEO要求项目经理回忆起过去一个月里每一天、每一个小时做了什么、见了谁、说了什么话。这几乎是不可能的。而我们的“一步梯度”法则好比，CEO只关心：“你上周的目标是什么？这周的成果是什么？OK，根据这个差值，我们来调整下周的计划。” 我们只关心最终状态的变化，大大减轻了模型的“记忆负担”，让训练变得轻巧高效。

数学上，这意味着我们绕过了对整个计算历史求导的复杂过程。对于一个理想的收敛点 \(z^*\)，其梯度可以通过隐函数定理求解。我们的一步近似，相当于只取了其级数展开的第一项，即 \((I - J_{\mathcal{F}})^{-1} \approx I\)，从而得到一个简洁的梯度估计： \[ \frac{\partial z_{H}^{*}}{\partial\theta} \approx \frac{\partial f_{H}}{\partial z_{L}^{*}} \cdot \frac{\partial z_{L}^{*}}{\partial\theta_{L}} + \dots \] 这个看似简单的近似，却在实践中效果惊人，让我们的模型可以在普通硬件上高效训练。

此外，我们还引入了自适应计算时间（Adaptive Computational Time, ACT）机制。并非所有问题都一样难。解一个简单的数独可能只需要“灵光一闪”，而一个极端困难的谜题则需要反复推敲。我们的HRM模型同样拥有这种“量力而行”的智慧。它内置了一个Q-learning模块，可以自主判断在当前问题上需要投入多少“思考时间”（即执行多少个H-L大循环）。简单问题，它可能只循环一两次就给出答案；遇到难题，它会自动增加循环次数，进行更深度的推理。这不仅让模型更高效，也更像一个真正的思考者。

动画3：智能的“思考计时器”

在这里，你可以选择一个“简单任务”或“复杂任务”。观察HRM如何智能地分配计算资源。对于简单任务，粒子流很快就稳定下来并停止。对于复杂任务，模型会进行更多轮次的计算（背景脉冲次数更多），粒子流经历更长时间的演化才找到最终的稳定形态。

任务类型: 未选择

计算步数: 0

四、惊人的成果：在智力的“珠峰”上插上旗帜

理论和设计最终要靠实验结果来检验。我们将HRM投放到三个被认为是AI推理能力“试金石”的战场上：

ARC-AGI挑战赛：一个类似IQ测试的比赛，需要从极少的例子中归纳出抽象规则。这极度考验模型的“流体智力”。
数独-极限版 (Sudoku-Extreme)：我们自己构建的超高难度数独数据集，平均每个谜题需要22次“猜测-回溯”，远超现有数据集。
迷宫-困难版 (Maze-Hard)：在30x30的复杂迷宫中找到唯一的最优路径，考验长程规划和空间搜索能力。

结果让我们自己都感到震惊。在没有进行任何预训练，仅仅使用了约1000个训练样本的情况下，我们小巧的、仅有27M参数的HRM模型，取得了碾压性的胜利：

在ARC-AGI-1上，准确率达到40.3%，远超那些参数量大上百倍、依赖CoT的巨型模型（如Claude 3.7的21.2%）。
在数独-极限版和迷宫-困难版上，那些强大的LLMs几乎全军覆没，准确率为0%，而HRM分别达到了55.0%和74.5%的惊人准确率！

这证明了，计算的“深度”远比“宽度”（参数量）更重要。通过层级结构，HRM获得了有效的计算深度，使其能够处理这些需要反复迭代、探索和回溯的复杂任务。它不是在“背答案”，而是在真正地“解决问题”。

动画4：亲眼见证HRM“思考”解迷宫

本动画模拟了HRM解决一个复杂迷宫的过程。粒子代表了模型的“注意力”或“探索方向”。你会看到，模型开始时会多路探索（粒子发散），遇到死路后该路径的粒子会消失（剪枝），最终，一条清晰、高效的路径（高亮粒子流）会浮现出来，连接起点和终点。

五、意外的发现：模型竟自发“长”出了大脑的结构

最让我们兴奋的，可能还不是性能上的超越，而是一个深刻的、与神经科学的共鸣。神经科学研究发现，大脑中负责高级认知功能的区域，其神经活动的“有效维度”更高。也就是说，它们能在一个更广阔、更复杂的“状态空间”里进行计算，以应对多样的任务。这个维度从低级的感知区域到高级的联想区域，呈现出一种清晰的层级关系。

我们好奇，我们的HRM在训练后，是否也自发地形成了类似的结构？我们使用了一种名为“参与率”（Participation Ratio, PR）的数学工具来衡量模型内部表示的有效维度。PR值越高，代表神经表示的维度越高，能处理的信息就越复杂。

分析结果令人难以置信：

我们发现，HRM的高层模块（H-module）的PR值（89.95）远高于低层模块（L-module）的PR值（30.22）。这形成了一个清晰的维度层级！
更重要的是，这个层级结构并非我们刻意设计的，而是在训练过程中自发涌现的。一个未经训练的、随机初始化的HRM，其高低层模块的PR值几乎没有差别。

这意味着，为了高效地解决复杂的推理问题，我们的模型“自己”发现并学习到了与真实大脑极其相似的一种组织原则：将计算任务分解到不同维度的子空间中去处理。高维的H模块负责灵活、抽象的战略规划，而低维的L模块则专注于具体、高效的战术执行。这为HRM为何如此强大，提供了一个深刻的内在解释。

动画5：探索HRM的“思想空间”

这个动画将HRM的内部状态投射到三维空间中。橙色粒子代表高层模块（H-module）的状态，蓝色粒子代表低层模块（L-module）的状态。你会观察到，蓝色粒子在一个相对受限的、低维的流形（像一个平面或曲面）上运动，代表其专注的计算。而橙色粒子则在一个更广阔、更高维的空间中自由探索，代表其灵活、抽象的规划能力。

六、结语：这只是开始，冲向AGI的星辰大海

HRM的成功，让我们备受鼓舞。它证明了，回归生物学原理，从大脑这个历经亿万年进化而成的“终极智能体”中汲取灵感，是构建更强大AI的一条可行之路。我们相信，当前AI领域对“超大规模、浅层计算”的痴迷，可能正在走向一个瓶颈。而像HRM这样，追求“高效、深度计算”的架构，或许代表了下一个范式。

当然，HRM只是一个开始。它像一艘刚刚建成的、能够进行深空探索的飞船，虽然已经证明了其强大的引擎和导航系统，但前方的宇宙仍然充满了未知。如何将这种层级推理能力与更丰富的世界知识结合？如何让它进行更开放式的创造性任务？这些都是我们下一步要探索的星辰大海。

我们深信，通往通用人工智能（AGI）的道路，不会是一条平坦的直线，而是一场充满挑战与发现的攀登。而HRM，就是我们为这场最后的冲刺，献上的一件关键装备。我们期待着，在不远的未来，能与大家分享更多来自这条探索之路上的风景。

技术附录：核心公式与细节

1. HRM 核心动力学

模型的核心动力学由高层状态 \(z_H\) 和低层状态 \(z_L\) 的迭代更新定义。在一个高层周期内，低层模块会进行 \(T\) 次更新。

低层模块更新（每一步 \(i\)）： \[ z_{L}^{i} = f_{L}(z_{L}^{i-1}, z_{H}^{i-1}, \tilde{x}; \theta_{L}) \] 这里 \(\tilde{x}\) 是输入 \(x\) 经过编码后的表示。

高层模块更新（仅在每 \(T\) 步的末尾）： \[ z_{H}^{i} = \begin{cases} f_{H}(z_{H}^{i-1}, z_{L}^{i-1}; \theta_{H}) & \text{if } i \equiv 0 \pmod{T} \\ z_{H}^{i-1} & \text{otherwise} \end{cases} \] 这种交错更新机制是实现“层级收敛”的关键。

2. 自适应计算时间 (ACT) 的Q-Learning

我们使用Q-learning来决定在每个推理段（segment）后是停止（halt）还是继续（continue）。Q值由H模块的最终状态预测： \[ \hat{Q}^{m} = (\hat{Q}_{\text{halt}}^{m}, \hat{Q}_{\text{continue}}^{m}) = \sigma(W_Q z_H^{m \cdot NT} + b_Q) \] 其中 \(\sigma\) 是sigmoid函数。Q-learning的目标值定义为： \[ \hat{G}_{\text{halt}}^{m} = \mathbb{I}(\hat{y}^{m} = y) \] \[ \hat{G}_{\text{continue}}^{m} = \max(\hat{Q}_{\text{halt}}^{m+1}, \hat{Q}_{\text{continue}}^{m+1}) \] 其中 \(\mathbb{I}(\cdot)\) 是指示函数。总损失函数结合了预测损失和Q损失，驱动模型学会在准确性和计算成本之间做出权衡。

3. 参与率 (Participation Ratio, PR)

PR是衡量神经表示有效维度的标准方法。对于一组神经状态轨迹的协方差矩阵，其特征值为 \(\{\lambda_i\}\)，PR的计算公式为： \[ \text{PR} = \frac{(\sum_{i}\lambda_{i})^{2}}{\sum_{i}\lambda_{i}^{2}} \] PR值的大小介于1和总神经元数量之间。一个高的PR值意味着方差均匀分布在多个维度上，表示一个高维、复杂的表示空间。反之，低的PR值意味着方差集中在少数几个主成分上，表示一个低维、更专门化的表示。