揭秘HRM:一探AI推理能力的“黑箱”

作者:ARC Prize 团队 | 机构:ARC Prize

一份对层级推理模型(HRM)在ARC-AGI基准测试中卓越表现背后的真实驱动力的深度探索。

|测试时训练(可能是低秩微调)仍然非常重要,这种训红使用一个外部的思考规则和执行循环,很快就可以提升单个PUZZLE ID的性能,对于数据增强也很重要。这是清华小组取得成功的关键。但是泛化很难。|

引言:HRM的魅力与我们的探索

2025年6月8日,一篇名为《层级推理模型》(HRM)的论文横空出世,迅速在人工智能界掀起波澜。Guan Wang及其团队声称,他们所设计的、受人脑启发的HRM架构,仅用一个2700万参数的小模型和1000个训练任务,就在抽象推理的终极挑战——ARC-AGI测试集上取得了惊人的41%的准确率。这无疑是一项突破性的成就,引得无数讨论和解读。

面对如此新颖且高效的方法,我们的职责——作为ARC Prize的组织者——就是去验证这些说法的可靠性。我们利用了ARC-AGI的一个“隐藏”数据集(半私有评估集)来对HRM进行了一次彻底的“体检”,以确保其表现并非偶然的过拟合。但我们决定不止于此。我们想知道,HRM成功的秘诀究竟是什么?

这就像一位美食评论家品尝一道“天才厨师”的创新菜。菜品味道惊艳,但真正让它与众不同的,是宣传中的那种珍稀异域食材(所谓的“层级架构”),还是那份秘而不宣的酱料配方与独特的烹饪手法(我们后来发现的“外部循环”与“测试时训练”)?为了找到答案,我们决定深入厨房,将这道“大餐”的配方彻底解构。

摘要 (Abstract)

层级推理模型(HRM)因其在ARC-AGI基准测试中表现出的卓越样本效率和性能而备受关注。本研究旨在通过在半私有评估集上进行复现与一系列消融实验,来验证并剖析HRM成功的核心驱动因素。我们成功复现了其声称的性能,在ARC-AGI-1上取得了32%的准确率,证实了该模型对于其规模而言具有非凡的能力。然而,我们的深入分析揭示了一系列与主流叙事相悖的发现。首先,与一个同等规模的基线Transformer模型相比,HRM独特的“层级”架构对最终性能的贡献微乎其微。其次,我们发现论文中相对次要的“外部循环”迭代优化过程,是提升模型性能,尤其是在训练阶段性能的关键。再次,跨任务的迁移学习效益有限,模型的大部分性能来源于对评估时所见任务的解决方案的“记忆”与合成,这表明其本质上更接近一种“测试时训练”范式。最后,数据增强至关重要,但我们发现仅需约300次增强即可达到接近饱和的性能,远低于论文中报告的1000次。综上所述,我们的研究将HRM的贡献重新定位:其成功并非源于新颖的类脑架构,而更多地归功于一种高效的、围绕迭代优化的工程实现。这一发现为未来抽象推理模型的研究提供了新的视角与启示。

HRM模型简介:源于大脑的启示

HRM的设计灵感,据称来源于人脑在不同时间尺度上处理信息的分层机制。想象一下,我们的大脑在解决一个复杂问题时,既有宏观的、缓慢的战略规划(“我应该先做什么,再做什么?”),也有微观的、快速的细节执行(“具体这一步怎么操作?”)。HRM试图用两个耦合的循环模块来模拟这个过程:

  • H模块 (High-level):扮演“慢速规划者”的角色,负责宏观指导。
  • L模块 (Low-level):扮演“快速工作者”的角色,负责细节执行。

这两个模块协同工作,不断更新一个共享的内部状态,直到模型认为自己“想清楚了”。

静态图示:HRM的类脑灵感

人脑:跨频耦合 元表征 (慢) 低阶表征 (快) ↔️ HRM 模型 高层 (H) - 慢 低层 (L) - 快 输入 输出

然而,HRM还有一个更关键的机制,论文中称之为“循环连接”(recurrent connectivity),我们称之为“外部循环”。模型在产生一个初步预测后,会自问:“我完成了吗?”。如果答案是“否”,它就会把当前的预测作为新的输入,再次送入模型进行一轮“思考”,从而不断迭代优化。这个过程就像一位艺术家反复审视并修改自己的画作。

动画一:迭代优化的力量

生活化类比:想象一位像素艺术家创作一幅作品。他不会一蹴而就,而是先画出模糊的轮廓(第一次迭代),然后逐步增加细节、修正色彩(后续迭代),直到图像变得清晰、准确。HRM的外部循环正是如此。

优化步数: 0 | 图像相似度: 0%

深入剖析:四大核心发现

通过一系列精巧的“控制变量”实验(我们称之为“消融分析”),我们逐一拆解HRM的各个组件,试图找到其性能的真正来源。结果令我们大吃一惊。

发现一:“层级”架构的贡献被高估

我们做的第一个,也是最大胆的实验是:如果把HRM那套复杂的、受大脑启发的H-L层级模块,直接换成一个参数量完全相同(约2700万)的普通Transformer模型,会发生什么?Transformer是当今AI领域最常见、最基础的架构之一。如果HRM的成功真的源于其独特的层级设计,那么替换后性能应该会一落千丈。

结果呢?这个“朴实无华”的Transformer,在几乎没有做任何针对性优化的情况下,取得了与HRM非常接近的成绩,性能差距仅在5个百分点左右。这有力地说明,HRM那套精巧的“大脑故事”可能并非其成功的关键。架构本身带来的优势是存在的,但远没有想象中那么大。

动画二:HRM vs. Transformer 性能对决

类比:两位赛车手,一位驾驶着宣传为“仿生猎豹设计”的酷炫赛车(HRM),另一位则驾驶着一辆经过专业调校的标准高性能赛车(Transformer)。比赛开始,人们以为“仿生赛车”会遥遥领先,结果却发现两者几乎齐头并进,差距微乎其微。

发现二:“外部循环”才是真正的性能引擎

既然架构不是关键,那什么才是呢?我们的目光聚焦到了那个“迭代优化”的外部循环上。我们通过实验控制了模型在训练和测试时进行优化的次数。结果是惊人的:

  • 不进行优化(1次循环)到仅优化1次(2次循环),模型的性能直接跃升了13个百分点
  • 从1次循环增加到8次循环,性能几乎翻了一倍

更有趣的是,我们发现,在训练阶段让模型经历充分的迭代优化,远比在最终推理时进行同样次数的优化更为重要。这意味着,这个“反复思考、自我修正”的过程,是教会模型如何解决问题的核心训练方法,而不仅仅是一个锦上添花的测试技巧。

动画三:性能放大器——循环的力量

类比:这就像学习一项新技能,比如投篮。一次投篮(1次循环)可能歪得离谱。但如果你不断地投(增加循环),并根据每次的结果进行微调,你的准度就会飞速提升。HRM正是通过这种方式,在训练中“学会”了如何命中目标。

发现三:跨任务学习的“幻象”

通常我们期望一个好的AI模型能“举一反三”,即通过学习大量的不同任务,掌握通用的推理能力,再去解决新问题。HRM的训练数据也包含了来自不同来源的960个任务。我们好奇,这种跨任务学习到底贡献了多少性能?

于是,我们做了一个减法实验:我们移除了所有额外的训练任务(来自ARC训练集和ConceptARC数据集的560个任务),只用那400个最终要评估的任务本身来训练HRM。按照常理,数据量大幅减少,模型的泛化能力会受损,性能理应大幅下降。

然而,结果再次出乎意料:模型的最终准确率仅从41%轻微下降到31%。这意味着,HRM绝大部分的性能,都来自于对它在评估时会遇到的那些任务的“死磕”。它并没有学到太多通用的、可以迁移的知识。它的工作模式更像是:拿到一道考题的几个示例,然后通过梯度下降在模型权重中“现场编写”出一个专门解决这道题的程序。这与Liao和Gu提出的“无预训练的ARC-AGI”方法在哲学上如出一辙。

静态图示:性能来源的“同心圆”

下图形象地展示了HRM性能的来源。绝大部分性能(内圈)来自于对评估任务本身的训练,而额外的跨任务训练数据(外环)贡献甚微。

评估任务 (400个) 贡献了 ~31% 性能 其他训练任务 (560个) 仅额外贡献 ~10% 性能

发现四:数据增强——必要但无需“过量”

数据增强是一种常见的AI训练技巧,通过对原始数据进行旋转、翻转、换色等变换,凭空“创造”出更多训练样本,以提升模型的泛化能力。HRM也大量使用了这一技术,论文中提到为每个任务生成了多达1000个增强版本。

我们对增强的数量进行了实验,发现这确实是一个关键步骤。完全不使用数据增强,模型性能会很差。但是,我们同样发现,并不需要1000次那么多的增强。实验表明,大约300次增强就足以达到接近最佳的性能。甚至,仅仅使用30次增强(论文用量的3%),就能达到最高性能的90%以上。这说明数据增强的边际效应递减得非常快。

动画四:少数服从多数的智慧

类比:一群侦探从不同角度(旋转、镜像等)观察同一个案发现场。每个人都给出一个推论。最后,将所有推论汇总,出现次数最多的那个(即“多数票”)最可能就是真相。HRM正是利用这个原理,通过对多个增强版本的预测结果进行投票,来提高最终答案的准确性。

结论:重新审视HRM的贡献

那么,回到我们最初的问题:HRM这道“佳肴”的美味秘诀究竟是什么?我们的答案是:并非那味名为“层级推理”的珍稀主材,而是那套名为“迭代优化”和“测试时训练”的精妙烹饪法。

HRM的成功,更多地体现为一种卓越的工程智慧,它巧妙地将迭代优化、数据增强和针对性的训练范式结合起来,在一个小模型上实现了惊人的效果。但它可能并不是我们最初想象的那种,在“类人通用推理”上取得根本性突破的模型。它更像一个高效的“解题专家”,而非一个博学的“思想家”。

这一发现并没有贬低HRM的价值,反而为我们指明了新的方向。也许通往通用人工智能的道路,不仅需要我们仰望星空,构想全新的类脑架构,也需要我们脚踏实地,将现有的技术组件以更创新的方式组合、打磨到极致。

动画五:性能支柱的重构

我们的研究重塑了对HRM成功的理解。最初被认为是核心的“层级架构”,其重要性已让位于“外部循环”。这好比我们发现一座宏伟大厦的主要承重柱,并非我们想象的那一根。

技术附录与开放问题

在我们的研究中,还发现了一个关键的技术细节:HRM在处理任务时,并非将一个任务的多个示例作为上下文(few-shot context)输入,而是将每个输入-输出对(称为puzzle)与一个独特的`puzzle_id`绑定。模型通过一个巨大的嵌入层来“记住”每个`puzzle_id`对应的特定转换规则。这解释了为何它在“测试时训练”范式下表现出色,但也暴露了其一个重大局限:它无法泛化到训练时从未见过的`puzzle_id`,即全新的任务。

静态图示:puzzle_id 的工作机制

任务输入 puzzle_id 嵌入层 (记住ID对应的规则) HRM 模型 输出

这次探索解答了一些问题,也引出了更多值得深思的开放问题,我们邀请整个社区一同探索:

  • `puzzle_id`嵌入机制与传统的上下文学习相比,优劣何在?
  • HRM能否被微调以适应新任务,从而克服泛化能力的局限?
  • 在推理时,模型学到的“停止信号”机制除了节省算力,能否带来性能上的提升?
  • “迭代优化”的思想能否推广到其他类型的方法,例如合成显式程序的归纳式方法?