论文深度解读：少即是多-用微型网络进行递归推理

分层推理模型（HRM）是一种新颖的方法，它使用两个小型神经网络以不同频率进行递归。这种受生物学启发的方法，在小型模型（27M参数）和少量数据（约1000个样本）上训练后，在数独、迷宫和ARC-AGI等困难的解谜任务上击败了大型语言模型（LLMs）。HRM在用小型网络解决难题方面展现了巨大潜力，但它尚未被充分理解，并且可能不是最优的。我们提出了微型递归模型（TRM），一种更简单的递归推理方法，它实现了比HRM显著更高的泛化能力，同时仅使用一个只有2层的微型网络。TRM仅用7M参数，在ARC-AGI-1上获得了45%的测试准确率，在ARC-AGI-2上获得了8%的测试准确率，这比大多数LLMs（例如DeepseekR1, o3-mini, Gemini2.5 Pro）要高，而参数量不到它们的0.01%。

摘要解读：

想象一下，你面对一道超级难的数学题。大型语言模型（LLM）就像一个知识渊博但有时会“想偏”的学霸，它脑子里装满了整个图书馆的知识，但解题时可能会一步错、步步错。而这篇论文介绍的一种老方法叫“分层推理模型”（HRM），它像一个模仿大脑思考方式的“小专家”，用两个小巧的神经网络，一个负责“快速联想”（高频递归），另一个负责“慢速深入思考”（低频递归），配合起来解决问题。这个“小专家”虽然模型很小，只看了1000道例题，但在解数独、走迷宫这类需要严密逻辑的难题上，居然比知识渊-博的“学霸”LLM还厉害。

但是，HRM这个“小专家”的思考过程有点复杂，像个黑匣子，我们没完全搞懂它为什么这么牛，而且它可能还有进步空间。于是，作者提出了一个全新的、更简洁的模型，叫做“微型递归模型”（TRM）。TRM可以说是HRM的“究极简化版”，它把两个神经网络砍掉，只留一个更小的，而且只有两层（好比一个超级精简的思考单元）。这个TRM模型，它反复使用这个小单元来打磨自己的答案，就像一个工匠不断雕琢一块璞玉。结果惊人：这个极度精简的TRM，在更难的AI智力竞赛（ARC-AGI）中，表现甚至超越了HRM和绝大多数庞大的LLM模型，而它的大小连LLM的万分之一都不到。这完美诠释了“少即是多”——有时候，一个简单而深刻的思考循环，远比庞大而复杂的知识堆砌更有效。

1. 引言

尽管大型语言模型（LLMs）功能强大，但在困难的问答问题上可能会遇到困难。鉴于它们是自回归地生成答案，错误的风险很高，因为单个不正确的词元（token）就可能使答案无效。为了提高其可靠性，LLMs依赖于思维链（CoT）和测试时计算（TTC）。CoT旨在通过让LLM在给出答案之前采样逐步的推理轨迹来模仿人类的推理过程。这样做可以提高准确性，但CoT成本高昂，需要高质量的推理数据（可能无法获得），并且可能很脆弱，因为生成的推理过程可能是错误的。为了进一步提高可靠性，可以使用测试时计算，通过报告K次中最常见的答案或奖励最高的答案。

引言解读 (第一段)：

这里首先指出了现在最火的AI（大型语言模型，LLMs）的一个天生缺陷。它们生成答案的方式就像写作文，一个字一个字往外蹦，这种方式叫“自回归”。这就有个大问题：一旦中间某个字写错了，后面就可能跟着错下去，导致整个句子甚至整篇文章都废了。这在做逻辑题时是致命的。

为了弥补这个缺陷，科学家们想了两个办法。第一个叫“思维链”（CoT），就是强迫AI在给出最终答案前，先像人一样，把解题步骤一步步写出来，比如“第一步，分析题目条件...第二步，列出公式...”。这样确实能提高正确率，但缺点也很明显：很费计算资源，而且需要大量“带有详细步骤”的优质例题来教它，这种例题很难找。更要命的是，如果AI自己想出来的解题步骤本身就是错的，那最终答案也跟着完蛋。

第二个办法叫“测试时计算”（TTC），简单粗暴，就是让AI一道题算K遍，然后看哪个答案出现次数最多，或者哪个答案看起来最“靠谱”（奖励最高），就选哪个。这就像考试没把握时，多算几遍验算一下，但依然不能从根本上解决问题。

引言解读 (第二段)：

这一段是在说，即使把前面提到的“思维链”和“多算几遍”这两个大招都用上，LLM还是搞不定所有难题。作者举了一个例子：ARC-AGI，这是一个专门设计出来考验AI真正智能水平的竞赛。尽管AI技术飞速发展，但在ARC-AGI上，AI的成绩离人类还有很大差距。更惨的是，在一个更新、更难的版本ARC-AGI-2上，即使是像谷歌Gemini 2.5 Pro这样的顶级模型，使出浑身解数，正确率也只有可怜的4.9%。这说明，现有LLM的“解题思路”存在根本性的天花板，光靠堆砌计算量是无法突破的。

引言解读 (第三段)：

面对LLM的困境，有另一派科学家提出了完全不同的思路，代表作就是“分层推理模型”（HRM）。这个模型在那些需要严密逻辑推理的任务上表现出色，比如解数独、走迷宫。HRM的核心是两个创新点：第一是“递归的分层推理”，可以理解为它有两个思考模块，一个想得快但比较浅，一个想得慢但比较深，两个模块来回“商量”（递归），共同推进解题过程。第二是“深度监督”，这好比一个极其有耐心的老师，AI每算一步，老师都会在旁边看着，如果发现有点不对劲，就立刻指出来，让AI在当前步骤上多反思几遍，直到想明白了再进行下一步。这种精细化的辅导方式，让HRM学得非常扎实。

递归的分层推理包括通过两个小型网络（$f_L$以高频，$f_H$以低频）多次递归来预测答案。每个网络生成一个不同的潜变量特征：$f_L$输出$z_H$，$f_H$输出$z_L$。两个特征($z_L, z_H$)都作为输入用于这两个网络。作者提供了一些生物学上的论据，支持基于大脑运行的不同时间频率和感觉输入的分层处理，在不同层次上进行递归。

引言解读 (第四段)：

这里详细解释了HRM的第一个创新点，“递归的分层推理”。它有两个神经网络，可以想象成大脑里的两个不同区域。$f_L$网络工作频率高，就像我们处理信息时的“直觉”或者“快速反应系统”，它负责快速地处理细节。$f_H$网络工作频率低，就像大脑的“深度思考系统”，它负责整合信息，进行更高层次的规划。这两个网络互相传递信息（$z_L$和$z_H$就是它们之间交流的“语言”），形成一个循环。作者认为，这种设计是有生物学依据的，模仿了我们大脑处理信息时既有快速的感官处理，又有慢速的逻辑整合这一特点。

引言解读 (第五段)：

这里解释了第二个创新点，“深度监督”。可以把它理解为一种“迭代优化”的训练方法。AI在解题时，不是一口气从头算到尾，而是分成好几个阶段（监督步骤）。在第一个阶段，它会得出一个初步答案和一些中间思考过程（潜变量特征）。然后，它把这些思考过程作为“草稿”，进入第二个阶段，在之前的基础上继续优化，得出更好的答案和更深刻的思考。这个过程可以重复很多次。每进入下一个阶段，它都会“忘记”上一个阶段具体的计算细节（分离计算图），只带着“思考结论”继续前进。这样做的好处是，它模拟了一个非常非常深（层数极多）的神经网络的效果，但又避免了因为网络太深而导致的电脑内存爆炸的问题。这就像解一道难题，你不会把所有的草稿都留着，而是会总结出阶段性的结论，然后基于这些结论继续往下推导。

一项对ARC-AGI基准的独立分析表明，深度监督似乎是性能提升的主要驱动力。使用深度监督比单步监督的准确率翻了一番（从19%提高到39%），而递归的分层推理相比于单次前向传播的常规模型，准确率仅有轻微提升（从35.7%提高到39.0%）。这表明，跨不同监督步骤进行推理是值得的，但在每个监督步骤中进行的递归并不特别重要。

引言解读 (第六段)：

后来，有其他人研究了HRM，发现了一个有意思的现象。HRM的两个创新点里，真正起决定性作用的是“深度监督”（迭代优化答案），这个方法让准确率直接翻倍。而那个听起来很酷的“分层推理”（两个网络来回商量）带来的提升却很小。这就像一个学生成绩提高，主要原因是他学会了“反复检查和修改作业”（深度监督），而不是他掌握了某种“左右脑协同思考”的玄学方法（分层推理）。这个发现暗示，HRM的核心优势在于“迭代求精”的思想，但它实现这个思想的方式（用两个网络搞分层递归）可能有点复杂，而且效率不高。

在这项工作中，我们展示了递归推理的好处可以被极大地提升，使其远不止是增量式的改进。我们提出了微型递归模型（TRM），一种改进和简化的方法，它使用一个只有2层的更小的微型网络，在多种问题上实现了比HRM显著更高的泛化能力。通过这样做，我们将数独-极限（Sudoku-Extreme）的最新测试准确率从55%提高到87%，迷宫-困难（Maze-Hard）从75%提高到85%，ARC-AGI-1从40%提高到45%，以及ARC-AGI-2从5%提高到8%。

引言解读 (第七段)：

基于以上的发现，作者提出了自己的模型——微型递归模型（TRM）。作者认为，HRM的“递归”思想是对的，但实现得太复杂了。TRM把HRM的设计大大简化：不要两个网络了，就用一个，而且这个网络要尽可能小，只有2层。然后，让这个极小的网络进行更高效、更纯粹的“递归思考”。这个改动取得了惊人的效果。TRM在各种高难度任务上，不仅超越了复杂的HRM，甚至在某些任务上实现了巨大的性能飞跃（比如解高难度数独，准确率从55%飙升到87%）。这有力地证明了，真正重要的是“递归推理”这个核心思想本身，而实现它的方式可以做到极致的简约，也即“少即是多”。

2. 背景知识

背景知识解读：

这一部分开始深入剖析HRM模型的技术细节，以便我们能更好地理解作者提出的TRM模型是在什么基础上进行改进的。这就像在学习一个新定理之前，先复习一下推导它所需要的基础知识。

2.1. 结构与目标

HRM的重点是监督学习。给定一个输入，产生一个输出。输入和输出都假设具有形状[B, L]（当形状不同时，可以添加填充词元），其中B是批量大小，L是上下文长度。

HRM包含四个可学习的组件：输入嵌入$f_I(\cdot; \theta_I)$，低层循环网络$f_L(\cdot; \theta_L)$，高层循环网络$f_H(\cdot; \theta_H)$，以及输出头$f_O(\cdot; \theta_O)$。一旦输入被嵌入，形状就变成[B, L, D]，其中D是嵌入大小。每个网络都是一个4层的Transformer架构，带有RMSNorm，无偏置，旋转嵌入，和SwiGLU激活函数。

结构与目标解读：

首先，HRM解决的问题类型是“监督学习”，这就像做有标准答案的练习题。你给它一个问题（输入），它给你一个答案（输出）。为了处理方便，它会把问题和答案都整理成一个固定大小的“格子”（形状为[批量大小，长度]）。

HRM这个模型由四个部分组成，你可以把它们想象成一个工厂的四条流水线：

输入嵌入 $f_I$: 这是“原料处理”线。它把文字性的问题转换成计算机能理解的数字向量（嵌入）。
低层网络 $f_L$: 这是“快速加工”线，负责处理细节和局部信息。
高层网络 $f_H$: 这是“精细组装”线，负责整合全局信息，做出宏观判断。
输出头 $f_O$: 这是“质检打包”线，把最终处理好的数字向量转换成人类能看懂的答案。

这几条“流水线”内部的技术细节，用的是当时很流行的Transformer架构（就是ChatGPT等模型的核心），并加入了一些优化技巧（如RMSNorm、旋转嵌入等），让它运行得更稳定、更高效。

2.2. 两种不同频率的递归

给定Wang等人使用的超参数（$n=2$个$f_L$步骤，1个$f_H$步骤；完成$T=2$次），HRM的一次前向传播过程如下：

        x ← f_I(x̃)
        z_L ← f_L(z_L + z_H + x)  # 无梯度
        z_L ← f_L(z_L + z_H + x)  # 无梯度
        z_H ← f_H(z_L + z_H)      # 无梯度
        z_L ← f_L(z_L + z_H + x)  # 无梯度
        z_L ← z_L.detach()
        z_H ← z_H.detach()
        z_L ← f_L(z_L + z_H + x)  # 有梯度
        z_H ← f_H(z_L + z_H)      # 有梯度
        ŷ ← argmax(f_O(z_H))
    

其中ŷ是预测的输出答案，$z_L$和$z_H$要么是初始化的嵌入，要么是前一个深度监督步骤的嵌入（在从计算图中分离它们之后）。可以看出，HRM的一次前向传播包括6次函数评估，其中前4次函数评估与计算图分离，不进行反向传播。作者在所有实验中都使用$n=2$和$T=2$，但HRM可以通过允许任意数量的L步骤（n）和递归（T）来推广，如算法2所示。

两种不同频率的递归解读：

这里展示了HRM核心工作流程的一小段。$z_L$和$z_H$可以理解为模型的两种“记忆”或“草稿”。$z_L$是“细节记忆”，$z_H$是“概要记忆”。

整个过程就像这样：

模型拿到问题x，结合自己的两种记忆，先用“快速加工”线$f_L$处理两遍，更新“细节记忆”$z_L$。
然后用“精细组装”线$f_H$处理一遍，根据更新后的细节，提炼出新的“概要记忆”$z_H$。
这个过程再重复一遍。

最关键的一点是，在整个思考过程中，大部分步骤都是“无梯度”的，这意味着模型在这些步骤中只是在单纯地“思考”和“推演”，而不会去想“我这么做对学习有没有帮助”。只有在最后两步，模型才开启“学习模式”（有梯度），开始反思“我刚才的思考过程，哪些地方需要调整，才能让最终答案更正确？”。这种设计，极大地节省了计算资源，因为它只在最关键的环节进行学习和调整。.detach()这个操作，就好比在思考完一个阶段后，把详细的草稿扔掉，只保留一个结论，然后轻装上阵，继续下一步。

2.3. 使用1步梯度近似的定点递归

假设$(z_L, z_H)$通过从$f_L$和$f_H$的递归达到了一个不动点$(z_L^*, z_H^*)$，

$$z_L^* \approx f_L(z_L^* + z_H + x)$$ $$z_H^* \approx f_H(z_L + z_H^*)$$

隐函数定理与1步梯度近似被用来通过仅反向传播最后的$f_L$和$f_H$步骤来近似梯度。这个定理被用来证明只追踪最后两个步骤（共6步中）的梯度是合理的，这极大地减少了内存需求。

1. 直觉目的：这里作者试图从数学上解释为什么上面那种“只在最后两步学习”的方法是可行的。核心思想是“不动点”理论。想象你在一面哈哈镜前调整姿势，你动一下，镜子里的你也跟着动，直到你找到一个姿势，你和镜子里的你看起来都稳定不变了，这个状态就叫“不动点”。作者假设，HRM的思考过程，经过多次递归后，它的“记忆”$z_L$和$z_H$会达到一个稳定的平衡状态，即“不动点”。

2. 符号释义：

$z_L^*, z_H^*$: 表示“细节记忆”和“概要记忆”达到稳定后的最终状态（不动点）。
$\approx$: 约等于。
$f_L(\dots), f_H(\dots)$: 代表模型的两个思考网络。

这两个公式的意思是：当达到不动点时，你把这个稳定的记忆$z_L^*$再输入到$f_L$网络里过一遍，出来的结果应该还是$z_L^*$本身（或非常接近），$z_H^*$同理。这意味着思考过程已经“收敛”了，想不出更多新东西了。

3. 逻辑骨架：基于这个“不动点”假设，作者引用了一个高深的数学工具——“隐函数定理”。这个定理可以让你在不动点附近，用一种巧妙的方式来近似计算梯度（也就是学习的方向），而不需要回顾整个冗长的思考链条。具体来说，它证明了，我们只需要考察到达不动点前的最后一步操作，就可以近似地得到整个思考过程应该如何调整。这就是“1步梯度近似”。

4. 关系网络：

推导来源：这个方法的理论基础是深度学习中的“深度均衡模型”（Deep Equilibrium Models），它试图将无限深的神经网络的输出看作是一个不动点方程的解。
关键联系：它将复杂的、多步骤的递归过程的学习问题，简化为了一个在不动点处的、单步的梯度计算问题，从而极大地降低了计算复杂度和内存消耗。这为HRM只在最后几步进行反向传播提供了理论上的辩护。

2.4. 深度监督

深度监督解读：

这个概念前面引言里提过，这里是更详细的解释。它是一种让浅层网络模拟超深层网络效果的聪明技巧。传统的网络是一条路走到黑，从输入层一直算到输出层。而深度监督则是让模型“循环思考、迭代求精”。

具体来说，模型先进行一次完整的思考过程（比如上面提到的6个步骤），得出一个初步答案和两种“记忆”$z_L, z_H$。然后，它不清空记忆，而是把这次得到的$z_L, z_H$作为下一次思考的“初始状态”，再完整地思考一遍。这个过程最多可以重复16次。每重复一次，模型对问题的理解就可能更深一层，它的“有效深度”就增加了一截。最终，它模拟了一个拥有 $16 \times 6 = 96$ 层深度的网络，但实际参数量和内存占用却远小于一个真正的96层网络。

2.5. 自适应计算时间（ACT）

使用深度监督，每个小批量的数据样本必须用于$N_{sup}=16$个监督步骤，然后才能处理下一个小批量。这是昂贵的，需要在“为少数数据样本优化多个监督步骤”与“用较少监督步骤优化许多数据样本”之间取得平衡。为了达到更好的平衡，引入了一种停止机制来决定模型是否应该提前终止。这是通过一个Q学习目标来学习的，该目标需要将$z_H$通过一个额外的头，并运行一个额外的前向传播（以确定现在停止是否比稍后停止更可取）。他们称此方法为自适应计算时间（ACT）。它只在训练期间使用，而在测试时则完成全部$N_{sup}=16$个监督步骤以最大化下游性能。ACT极大地减少了每个样本花费的时间（在数独-极限数据集上平均花费不到2步，而不是全部$N_{sup}=16$步），从而在给定固定训练迭代次数的情况下，允许覆盖更多的数据集。

自适应计算时间（ACT）解读：

“深度监督”虽然效果好，但有个问题：是不是所有题目都需要模型“循环思考”整整16遍呢？对于简单的题目，可能想2-3遍就完全搞懂了，再想下去就是浪费时间。为了解决这个问题，作者引入了“自适应计算时间”（ACT）。

ACT就像给模型装了一个“智能计时器”。在每次“循环思考”之后，模型都会自己判断一下：“我现在是不是已经找到正确答案了？或者再想下去也没啥用了？” 这个判断是通过一种叫做“Q学习”的强化学习方法来训练的。模型会学习预测“现在停下来”和“再想一步”哪个选择更好。如果模型觉得已经足够了，就会提前“下班”，去处理下一个题目。

这个机制非常有效。在训练时，对于简单题，模型可能平均只思考不到2遍就跳过了，从而省出大量时间去学习更多的难题。这大大提高了训练效率。不过，在最终的“考试”（测试）时，为了追求最高的分数，模型还是会老老实实地把每一道题都思考满16遍。

2.6. 深度监督和1步梯度近似取代BPTT

深度监督和1步梯度近似为解决时间信用分配（TCA）问题提供了一种比时间反向传播（BPTT）更具生物学合理性且计算开销更小的替代方案。这意味着HRM可以学习到通常需要一个极其庞大的网络才能学到的东西，而无需通过其整个深度进行反向传播。给定Jang等人在所有实验中使用的超参数，HRM有效地在$n_{layers}(n+1)TN_{sup} = 4 \times (2+1) \times 2 \times 16 = 384$层的有效深度上进行推理。

深度监督和1步梯度近似取代BPTT解读：

这一段是做一个总结，并与经典的方法进行对比。在处理像语言、思考过程这样的序列数据时，传统的最经典的训练方法叫做“时间反向传播”（BPTT）。BPTT就像一个非常负责任的侦探，为了找出最终答案错误的原因，他会把整个思考链条从头到尾、一步不落地彻查一遍。这种方法非常精确，但计算量巨大，尤其是当思考链条很长时，容易导致“梯度消失/爆炸”（可以理解为查到最后线索断了或者信息过载了）。

而HRM用的“深度监督”+“1步梯度近似”这套组合拳，则像一个更聪明的侦探。他不会死板地回溯每一步，而是通过“迭代求精”和“抓住关键环节（不动点）”的方式来学习。作者认为这种方式更接近生物大脑的学习方式（我们学习时也不会在脑中精确地回放每一个神经元的活动），而且计算效率高得多。

最后，作者算了一笔账：在HRM的设定下，它的“有效深度”相当于一个有384层的超级深的网络！但它实现这一切，靠的却是一个非常小、非常浅的网络通过聪明的循环机制。这正是HRM的核心魅力所在。

少即是多：用微型网络进行递归推理

摘要