作者: Alexia Jolicoeur-Martineau
机构: 三星蒙特利尔人工智能实验室 (Samsung SAIL Montréal)
论文编号: arXiv:2510.04871v1 [cs.LG] 2025年10月6日
分层推理模型(HRM)是一种新颖的方法,它使用两个小型神经网络以不同频率进行递归。这种受生物学启发的方法,在小型模型(27M参数)和少量数据(约1000个样本)上训练后,在数独、迷宫和ARC-AGI等困难的解谜任务上击败了大型语言模型(LLMs)。HRM在用小型网络解决难题方面展现了巨大潜力,但它尚未被充分理解,并且可能不是最优的。我们提出了微型递归模型(TRM),一种更简单的递归推理方法,它实现了比HRM显著更高的泛化能力,同时仅使用一个只有2层的微型网络。TRM仅用7M参数,在ARC-AGI-1上获得了45%的测试准确率,在ARC-AGI-2上获得了8%的测试准确率,这比大多数LLMs(例如DeepseekR1, o3-mini, Gemini2.5 Pro)要高,而参数量不到它们的0.01%。
摘要解读:
想象一下,你面对一道超级难的数学题。大型语言模型(LLM)就像一个知识渊博但有时会“想偏”的学霸,它脑子里装满了整个图书馆的知识,但解题时可能会一步错、步步错。而这篇论文介绍的一种老方法叫“分层推理模型”(HRM),它像一个模仿大脑思考方式的“小专家”,用两个小巧的神经网络,一个负责“快速联想”(高频递归),另一个负责“慢速深入思考”(低频递归),配合起来解决问题。这个“小专家”虽然模型很小,只看了1000道例题,但在解数独、走迷宫这类需要严密逻辑的难题上,居然比知识渊-博的“学霸”LLM还厉害。
但是,HRM这个“小专家”的思考过程有点复杂,像个黑匣子,我们没完全搞懂它为什么这么牛,而且它可能还有进步空间。于是,作者提出了一个全新的、更简洁的模型,叫做“微型递归模型”(TRM)。TRM可以说是HRM的“究极简化版”,它把两个神经网络砍掉,只留一个更小的,而且只有两层(好比一个超级精简的思考单元)。这个TRM模型,它反复使用这个小单元来打磨自己的答案,就像一个工匠不断雕琢一块璞玉。结果惊人:这个极度精简的TRM,在更难的AI智力竞赛(ARC-AGI)中,表现甚至超越了HRM和绝大多数庞大的LLM模型,而它的大小连LLM的万分之一都不到。这完美诠释了“少即是多”——有时候,一个简单而深刻的思考循环,远比庞大而复杂的知识堆砌更有效。
尽管大型语言模型(LLMs)功能强大,但在困难的问答问题上可能会遇到困难。鉴于它们是自回归地生成答案,错误的风险很高,因为单个不正确的词元(token)就可能使答案无效。为了提高其可靠性,LLMs依赖于思维链(CoT)和测试时计算(TTC)。CoT旨在通过让LLM在给出答案之前采样逐步的推理轨迹来模仿人类的推理过程。这样做可以提高准确性,但CoT成本高昂,需要高质量的推理数据(可能无法获得),并且可能很脆弱,因为生成的推理过程可能是错误的。为了进一步提高可靠性,可以使用测试时计算,通过报告K次中最常见的答案或奖励最高的答案。
引言解读 (第一段):
这里首先指出了现在最火的AI(大型语言模型,LLMs)的一个天生缺陷。它们生成答案的方式就像写作文,一个字一个字往外蹦,这种方式叫“自回归”。这就有个大问题:一旦中间某个字写错了,后面就可能跟着错下去,导致整个句子甚至整篇文章都废了。这在做逻辑题时是致命的。
为了弥补这个缺陷,科学家们想了两个办法。第一个叫“思维链”(CoT),就是强迫AI在给出最终答案前,先像人一样,把解题步骤一步步写出来,比如“第一步,分析题目条件...第二步,列出公式...”。这样确实能提高正确率,但缺点也很明显:很费计算资源,而且需要大量“带有详细步骤”的优质例题来教它,这种例题很难找。更要命的是,如果AI自己想出来的解题步骤本身就是错的,那最终答案也跟着完蛋。
第二个办法叫“测试时计算”(TTC),简单粗暴,就是让AI一道题算K遍,然后看哪个答案出现次数最多,或者哪个答案看起来最“靠谱”(奖励最高),就选哪个。这就像考试没把握时,多算几遍验算一下,但依然不能从根本上解决问题。
图1解读:上图描绘了微型递归模型(TRM)如何迭代地优化其预测答案y。它从嵌入式输入问题x、初始嵌入式答案y和潜变量z开始。在最多 $N_{sup}=16$ 个改进步骤中,它试图改进其答案y。它通过以下方式实现:i) 在给定问题x、当前答案y和当前潜变量z的情况下,递归地更新n次其潜变量z(递归推理),然后 ii) 在给定当前答案y和当前潜变量z的情况下,更新其答案y。这种递归过程允许模型以极其节省参数的方式逐步改进其答案(可能解决其先前答案中的任何错误),同时最大限度地减少过拟合。
然而,这可能还不够。带有CoT和TTC的LLMs并不足以解决所有问题。尽管自2019年以来,LLMs在ARC-AGI上取得了显著进展,但人类水平的准确率仍未达到(截至本文撰写时,6年后)。此外,LLMs在更新的ARC-AGI-2上表现不佳(例如,Gemini 2.5 Pro在使用大量TTC的情况下仅获得4.9%的测试准确率)。
引言解读 (第二段):
这一段是在说,即使把前面提到的“思维链”和“多算几遍”这两个大招都用上,LLM还是搞不定所有难题。作者举了一个例子:ARC-AGI,这是一个专门设计出来考验AI真正智能水平的竞赛。尽管AI技术飞速发展,但在ARC-AGI上,AI的成绩离人类还有很大差距。更惨的是,在一个更新、更难的版本ARC-AGI-2上,即使是像谷歌Gemini 2.5 Pro这样的顶级模型,使出浑身解数,正确率也只有可怜的4.9%。这说明,现有LLM的“解题思路”存在根本性的天花板,光靠堆砌计算量是无法突破的。
最近,Wang等人提出了一条替代方向。他们通过其新颖的分层推理模型(HRM)提出了一条新的前进道路,该模型在LLMs难以取得进展的解谜任务(如数独求解、迷宫寻路和ARC-AGI)上获得了高准确率。HRM是一个监督学习模型,具有两个主要新颖点:1)递归的分层推理,和2)深度监督。
引言解读 (第三段):
面对LLM的困境,有另一派科学家提出了完全不同的思路,代表作就是“分层推理模型”(HRM)。这个模型在那些需要严密逻辑推理的任务上表现出色,比如解数独、走迷宫。HRM的核心是两个创新点:第一是“递归的分层推理”,可以理解为它有两个思考模块,一个想得快但比较浅,一个想得慢但比较深,两个模块来回“商量”(递归),共同推进解题过程。第二是“深度监督”,这好比一个极其有耐心的老师,AI每算一步,老师都会在旁边看着,如果发现有点不对劲,就立刻指出来,让AI在当前步骤上多反思几遍,直到想明白了再进行下一步。这种精细化的辅导方式,让HRM学得非常扎实。
递归的分层推理包括通过两个小型网络($f_L$以高频,$f_H$以低频)多次递归来预测答案。每个网络生成一个不同的潜变量特征:$f_L$输出$z_H$,$f_H$输出$z_L$。两个特征($z_L, z_H$)都作为输入用于这两个网络。作者提供了一些生物学上的论据,支持基于大脑运行的不同时间频率和感觉输入的分层处理,在不同层次上进行递归。
引言解读 (第四段):
这里详细解释了HRM的第一个创新点,“递归的分层推理”。它有两个神经网络,可以想象成大脑里的两个不同区域。$f_L$网络工作频率高,就像我们处理信息时的“直觉”或者“快速反应系统”,它负责快速地处理细节。$f_H$网络工作频率低,就像大脑的“深度思考系统”,它负责整合信息,进行更高层次的规划。这两个网络互相传递信息($z_L$和$z_H$就是它们之间交流的“语言”),形成一个循环。作者认为,这种设计是有生物学依据的,模仿了我们大脑处理信息时既有快速的感官处理,又有慢速的逻辑整合这一特点。
深度监督包括通过多个监督步骤来改进答案,同时将两个潜变量特征作为改进步骤的初始化(在将它们从计算图中分离,使其梯度不传播之后)。这提供了残差连接,模拟了那些因为内存开销过大而无法在一次前向传播中应用的非常深的神经网络。
引言解读 (第五段):
这里解释了第二个创新点,“深度监督”。可以把它理解为一种“迭代优化”的训练方法。AI在解题时,不是一口气从头算到尾,而是分成好几个阶段(监督步骤)。在第一个阶段,它会得出一个初步答案和一些中间思考过程(潜变量特征)。然后,它把这些思考过程作为“草稿”,进入第二个阶段,在之前的基础上继续优化,得出更好的答案和更深刻的思考。这个过程可以重复很多次。每进入下一个阶段,它都会“忘记”上一个阶段具体的计算细节(分离计算图),只带着“思考结论”继续前进。这样做的好处是,它模拟了一个非常非常深(层数极多)的神经网络的效果,但又避免了因为网络太深而导致的电脑内存爆炸的问题。这就像解一道难题,你不会把所有的草稿都留着,而是会总结出阶段性的结论,然后基于这些结论继续往下推导。
一项对ARC-AGI基准的独立分析表明,深度监督似乎是性能提升的主要驱动力。使用深度监督比单步监督的准确率翻了一番(从19%提高到39%),而递归的分层推理相比于单次前向传播的常规模型,准确率仅有轻微提升(从35.7%提高到39.0%)。这表明,跨不同监督步骤进行推理是值得的,但在每个监督步骤中进行的递归并不特别重要。
引言解读 (第六段):
后来,有其他人研究了HRM,发现了一个有意思的现象。HRM的两个创新点里,真正起决定性作用的是“深度监督”(迭代优化答案),这个方法让准确率直接翻倍。而那个听起来很酷的“分层推理”(两个网络来回商量)带来的提升却很小。这就像一个学生成绩提高,主要原因是他学会了“反复检查和修改作业”(深度监督),而不是他掌握了某种“左右脑协同思考”的玄学方法(分层推理)。这个发现暗示,HRM的核心优势在于“迭代求精”的思想,但它实现这个思想的方式(用两个网络搞分层递归)可能有点复杂,而且效率不高。
在这项工作中,我们展示了递归推理的好处可以被极大地提升,使其远不止是增量式的改进。我们提出了微型递归模型(TRM),一种改进和简化的方法,它使用一个只有2层的更小的微型网络,在多种问题上实现了比HRM显著更高的泛化能力。通过这样做,我们将数独-极限(Sudoku-Extreme)的最新测试准确率从55%提高到87%,迷宫-困难(Maze-Hard)从75%提高到85%,ARC-AGI-1从40%提高到45%,以及ARC-AGI-2从5%提高到8%。
引言解读 (第七段):
基于以上的发现,作者提出了自己的模型——微型递归模型(TRM)。作者认为,HRM的“递归”思想是对的,但实现得太复杂了。TRM把HRM的设计大大简化:不要两个网络了,就用一个,而且这个网络要尽可能小,只有2层。然后,让这个极小的网络进行更高效、更纯粹的“递归思考”。这个改动取得了惊人的效果。TRM在各种高难度任务上,不仅超越了复杂的HRM,甚至在某些任务上实现了巨大的性能飞跃(比如解高难度数独,准确率从55%飙升到87%)。这有力地证明了,真正重要的是“递归推理”这个核心思想本身,而实现它的方式可以做到极致的简约,也即“少即是多”。
HRM在算法2中有描述。我们将在下面进一步讨论算法的细节。
背景知识解读:
这一部分开始深入剖析HRM模型的技术细节,以便我们能更好地理解作者提出的TRM模型是在什么基础上进行改进的。这就像在学习一个新定理之前,先复习一下推导它所需要的基础知识。
HRM的重点是监督学习。给定一个输入,产生一个输出。输入和输出都假设具有形状[B, L](当形状不同时,可以添加填充词元),其中B是批量大小,L是上下文长度。
HRM包含四个可学习的组件:输入嵌入$f_I(\cdot; \theta_I)$,低层循环网络$f_L(\cdot; \theta_L)$,高层循环网络$f_H(\cdot; \theta_H)$,以及输出头$f_O(\cdot; \theta_O)$。一旦输入被嵌入,形状就变成[B, L, D],其中D是嵌入大小。每个网络都是一个4层的Transformer架构,带有RMSNorm,无偏置,旋转嵌入,和SwiGLU激活函数。
结构与目标解读:
首先,HRM解决的问题类型是“监督学习”,这就像做有标准答案的练习题。你给它一个问题(输入),它给你一个答案(输出)。为了处理方便,它会把问题和答案都整理成一个固定大小的“格子”(形状为[批量大小,长度])。
HRM这个模型由四个部分组成,你可以把它们想象成一个工厂的四条流水线:
这几条“流水线”内部的技术细节,用的是当时很流行的Transformer架构(就是ChatGPT等模型的核心),并加入了一些优化技巧(如RMSNorm、旋转嵌入等),让它运行得更稳定、更高效。
给定Wang等人使用的超参数($n=2$个$f_L$步骤,1个$f_H$步骤;完成$T=2$次),HRM的一次前向传播过程如下:
其中ŷ是预测的输出答案,$z_L$和$z_H$要么是初始化的嵌入,要么是前一个深度监督步骤的嵌入(在从计算图中分离它们之后)。可以看出,HRM的一次前向传播包括6次函数评估,其中前4次函数评估与计算图分离,不进行反向传播。作者在所有实验中都使用$n=2$和$T=2$,但HRM可以通过允许任意数量的L步骤(n)和递归(T)来推广,如算法2所示。
两种不同频率的递归解读:
这里展示了HRM核心工作流程的一小段。$z_L$和$z_H$可以理解为模型的两种“记忆”或“草稿”。$z_L$是“细节记忆”,$z_H$是“概要记忆”。
整个过程就像这样:
最关键的一点是,在整个思考过程中,大部分步骤都是“无梯度”的,这意味着模型在这些步骤中只是在单纯地“思考”和“推演”,而不会去想“我这么做对学习有没有帮助”。只有在最后两步,模型才开启“学习模式”(有梯度),开始反思“我刚才的思考过程,哪些地方需要调整,才能让最终答案更正确?”。这种设计,极大地节省了计算资源,因为它只在最关键的环节进行学习和调整。.detach()
这个操作,就好比在思考完一个阶段后,把详细的草稿扔掉,只保留一个结论,然后轻装上阵,继续下一步。
假设$(z_L, z_H)$通过从$f_L$和$f_H$的递归达到了一个不动点$(z_L^*, z_H^*)$,
$$z_L^* \approx f_L(z_L^* + z_H + x)$$ $$z_H^* \approx f_H(z_L + z_H^*)$$隐函数定理与1步梯度近似被用来通过仅反向传播最后的$f_L$和$f_H$步骤来近似梯度。这个定理被用来证明只追踪最后两个步骤(共6步中)的梯度是合理的,这极大地减少了内存需求。
2. 符号释义:
这两个公式的意思是:当达到不动点时,你把这个稳定的记忆$z_L^*$再输入到$f_L$网络里过一遍,出来的结果应该还是$z_L^*$本身(或非常接近),$z_H^*$同理。这意味着思考过程已经“收敛”了,想不出更多新东西了。
3. 逻辑骨架:基于这个“不动点”假设,作者引用了一个高深的数学工具——“隐函数定理”。这个定理可以让你在不动点附近,用一种巧妙的方式来近似计算梯度(也就是学习的方向),而不需要回顾整个冗长的思考链条。具体来说,它证明了,我们只需要考察到达不动点前的最后一步操作,就可以近似地得到整个思考过程应该如何调整。这就是“1步梯度近似”。
4. 关系网络:
为了提高有效深度,使用了深度监督。这包括重用之前的潜变量特征($z_H$和$z_L$)作为下一次前向传播的初始化。这允许模型在多次迭代中进行推理,并改进其潜变量特征($z_L$和$z_H$),直到它(有希望地)收敛到正确的解。最多使用$N_{sup}=16$个监督步骤。
深度监督解读:
这个概念前面引言里提过,这里是更详细的解释。它是一种让浅层网络模拟超深层网络效果的聪明技巧。传统的网络是一条路走到黑,从输入层一直算到输出层。而深度监督则是让模型“循环思考、迭代求精”。
具体来说,模型先进行一次完整的思考过程(比如上面提到的6个步骤),得出一个初步答案和两种“记忆”$z_L, z_H$。然后,它不清空记忆,而是把这次得到的$z_L, z_H$作为下一次思考的“初始状态”,再完整地思考一遍。这个过程最多可以重复16次。每重复一次,模型对问题的理解就可能更深一层,它的“有效深度”就增加了一截。最终,它模拟了一个拥有 $16 \times 6 = 96$ 层深度的网络,但实际参数量和内存占用却远小于一个真正的96层网络。
使用深度监督,每个小批量的数据样本必须用于$N_{sup}=16$个监督步骤,然后才能处理下一个小批量。这是昂贵的,需要在“为少数数据样本优化多个监督步骤”与“用较少监督步骤优化许多数据样本”之间取得平衡。为了达到更好的平衡,引入了一种停止机制来决定模型是否应该提前终止。这是通过一个Q学习目标来学习的,该目标需要将$z_H$通过一个额外的头,并运行一个额外的前向传播(以确定现在停止是否比稍后停止更可取)。他们称此方法为自适应计算时间(ACT)。它只在训练期间使用,而在测试时则完成全部$N_{sup}=16$个监督步骤以最大化下游性能。ACT极大地减少了每个样本花费的时间(在数独-极限数据集上平均花费不到2步,而不是全部$N_{sup}=16$步),从而在给定固定训练迭代次数的情况下,允许覆盖更多的数据集。
自适应计算时间(ACT)解读:
“深度监督”虽然效果好,但有个问题:是不是所有题目都需要模型“循环思考”整整16遍呢?对于简单的题目,可能想2-3遍就完全搞懂了,再想下去就是浪费时间。为了解决这个问题,作者引入了“自适应计算时间”(ACT)。
ACT就像给模型装了一个“智能计时器”。在每次“循环思考”之后,模型都会自己判断一下:“我现在是不是已经找到正确答案了?或者再想下去也没啥用了?” 这个判断是通过一种叫做“Q学习”的强化学习方法来训练的。模型会学习预测“现在停下来”和“再想一步”哪个选择更好。如果模型觉得已经足够了,就会提前“下班”,去处理下一个题目。
这个机制非常有效。在训练时,对于简单题,模型可能平均只思考不到2遍就跳过了,从而省出大量时间去学习更多的难题。这大大提高了训练效率。不过,在最终的“考试”(测试)时,为了追求最高的分数,模型还是会老老实实地把每一道题都思考满16遍。
深度监督和1步梯度近似为解决时间信用分配(TCA)问题提供了一种比时间反向传播(BPTT)更具生物学合理性且计算开销更小的替代方案。这意味着HRM可以学习到通常需要一个极其庞大的网络才能学到的东西,而无需通过其整个深度进行反向传播。给定Jang等人在所有实验中使用的超参数,HRM有效地在$n_{layers}(n+1)TN_{sup} = 4 \times (2+1) \times 2 \times 16 = 384$层的有效深度上进行推理。
深度监督和1步梯度近似取代BPTT解读:
这一段是做一个总结,并与经典的方法进行对比。在处理像语言、思考过程这样的序列数据时,传统的最经典的训练方法叫做“时间反向传播”(BPTT)。BPTT就像一个非常负责任的侦探,为了找出最终答案错误的原因,他会把整个思考链条从头到尾、一步不落地彻查一遍。这种方法非常精确,但计算量巨大,尤其是当思考链条很长时,容易导致“梯度消失/爆炸”(可以理解为查到最后线索断了或者信息过载了)。
而HRM用的“深度监督”+“1步梯度近似”这套组合拳,则像一个更聪明的侦探。他不会死板地回溯每一步,而是通过“迭代求精”和“抓住关键环节(不动点)”的方式来学习。作者认为这种方式更接近生物大脑的学习方式(我们学习时也不会在脑中精确地回放每一个神经元的活动),而且计算效率高得多。
最后,作者算了一笔账:在HRM的设定下,它的“有效深度”相当于一个有384层的超级深的网络!但它实现这一切,靠的却是一个非常小、非常浅的网络通过聪明的循环机制。这正是HRM的核心魅力所在。