引言:智能的标尺与前沿挑战
人工智能的飞速发展,特别是近期大型语言模型的突破,对我们如何衡量机器智能提出了新的要求。2019年诞生的ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence,后称ARC-AGI-1)基准,通过一系列独特的、仅需极少先验知识的抽象推理任务,为评估通用流体智能提供了一个重要平台。这些任务通常以网格的形式呈现,要求系统从少数几个输入-输出示例中归纳出潜在的转换规则。
然而,五年过去,AI能力的边界不断拓展,我们需要更精细、更具挑战性的标尺来衡量其在复杂认知任务上的进展。本文将从“物理逻辑”的视角,深入解读新一代基准 ARC-AGI-2,探讨其设计理念、核心挑战以及它如何推动AI向更通用、更类人的能力迈进。“物理逻辑”在这里指任务的结构化呈现方式(物理形态)以及解决这些任务所需的底层推理过程和规则(逻辑内核)。
ARC-AGI-1的回顾与“物理”局限
ARC-AGI-1的核心“物理”设定是基于网格的输入输出对。AI系统需要从少量(通常2-5个)示例中归纳出隐藏的转换规则,并将其应用于新的测试网格。这些任务的“逻辑”在于它们刻意规避了对大量世界知识或语言能力的依赖,旨在纯粹考察流体智能——高效解决新问题的能力。其三大特征:抗过拟合与记忆、最小化先验知识(仅依赖如物体持久性、基本几何拓扑等核心认知)、以及人类可解性。
ARC-AGI-1 的主要局限性:
- 策略的脆弱性: 研究发现,近一半的ARC-AGI-1私有评估任务可能被计算密集的暴力程序搜索方法破解。这在一定程度上奖励了算力而非真正的认知架构创新,削弱了基准评估高级智能的信号。
- 人类基准的缺失: 虽然任务设计为人类可解,但ARC-AGI-1缺乏官方、标准化的第一方人类测试数据。这使得精确对比AI与人类在该基准上的表现变得困难。
- 认知天花板较低: 经验表明,智力水平较高的人类可以相对轻松地解决超过97%的ARC-AGI-1任务,这意味着该基准在区分更高层次的流体智能方面能力有限,出现了“饱和”现象。
- 难度分布不均: ARC-AGI-1的不同任务子集(如公共评估集与私有评估集)在实证难度上存在不一致,这可能影响跨子集比较得分的可靠性。
- 信息泄露风险: 由于私有评估集在多次竞赛中重复使用并提供排行榜反馈,累积的评分数据可能间接泄露任务特征,导致模型针对特定任务集进行“调优”,而非发展真正通用的推理能力。
这些局限性共同表明,虽然ARC-AGI-1在推动AI抽象推理研究方面功不可没,但它在衡量当前最前沿AI系统的更高阶能力时,已逐渐显现出其“物理”边界和“逻辑”瓶颈。
动画演示1:ARC任务剖析
下面的动画演示了一个典型的ARC任务是如何呈现的。观察输入网格如何通过一个未言明的规则转换为输出网格。
ARC-AGI-2的“物理逻辑”重塑
为了应对ARC-AGI-1的局限性并持续推动AGI研究,ARC-AGI-2应运而生。它在保持核心原则和任务格式(输入-输出网格对,网格大小1x1至30x30,最多10种离散颜色)不变的前提下,进行了关键的升级和重塑,旨在提升基准的“物理”挑战性和“逻辑”深度。
ARC-AGI-2 的核心目标与设计革新:
- 增强对非泛化策略的抵抗力: ARC-AGI-2中的任务经过精心设计,旨在最小化对朴素或计算密集型暴力破解方法的易感性。这使得焦点进一步转向高效的、适应性的抽象推理能力。
- 建立坚实的的人类基准: 通过对ARC-AGI-2候选任务进行大规模、受控的第一方人类测试(涉及407名不同背景的参与者,尝试了1848个独特的任务测试对),获得了关于人类可解率、感知难度和解决策略的可靠数据。例如,人类测试者平均解决了他们尝试任务的66%,解决成功的任务对平均耗时2.2分钟。
- 拓宽有效的“信号带宽”: ARC-AGI-2包含了一系列经过仔细校准的、难度跨度更广的任务。这些任务对人类而言通常仍然是可解的,但能更有效地衡量和区分不同层次的AI流体推理能力,减少了简单任务的比例。
- 校准各子集的难度分布: 确保公共评估集、半私有评估集和私有评估集中的任务,在人类可解性和感知难度方面,都来源于具有可比性的分布。这增强了在不同任务集上获得的分数的可解释性和预测性。
- 任务的独特性与新颖性: ARC-AGI-2中的任务更加独特,许多是全新创作的,以应对信息泄露的风险,并确保评估的是真正的“零样本”或“少样本”学习能力。
ARC-AGI-2的最终任务筛选过程非常严格,所有评估集中的任务都确保至少被两名独立的人类测试者在两次尝试或更少的时间内成功解决。平均而言,最终入选ARC-AGI-2的任务对被75%尝试过它们的人类测试者解决。
动画演示2:ARC-1 局限 vs ARC-2 目标
此动画对比了ARC-AGI-1的主要局限性以及ARC-AGI-2为解决这些问题所设定的目标。
ARC-AGI-2为何更具挑战性?——深入“逻辑内核”
ARC-AGI-1中的许多任务,人类测试者往往可以近乎即时地解决,无需大量认知努力。相比之下,ARC-AGI-2中的所有任务都需要一定程度的深思熟虑——例如,在人类测试样本中,任务的平均完成时间为2.7分钟。这种难度的提升源于其“逻辑内核”的显著增强:
- 任务的独特性 (Uniqueness): ARC-AGI-1中的一些简单任务可能与某些已知模式存在重叠,而ARC-AGI-2中的每一个任务都力求完全新颖,据开发者所知是前所未见的。
- 信息内容的复杂性 (Complexity): ARC-AGI-2任务通常包含更大的网格、每个网格中更多的对象、以及每个任务中涉及更多的概念。从信息论角度看,压缩ARC-AGI-2任务会比压缩ARC-AGI-1任务产生更多的数据位。
- 对组合泛化能力的深度考察 (Compositional Generalization): 这是ARC-AGI-2最具挑战性的方面。它要求AI系统能够以新颖的方式组合已知的规则或概念来解决问题。这通常表现为以下几种形式:
- 多规则组合推理 (Multi-rule compositional reasoning): 大多数ARC-AGI-1任务可通过识别和应用单一高级转换规则解决(例如,“物体下落”)。而ARC-AGI-2任务则倾向于包含多个同时作用的规则,这些规则还可能相互影响。例如,一个任务可能要求首先根据框架裁剪输入网格,然后缩放彩色对象,最后将缩放后的对象放入框架内形状匹配的孔洞中(参考PDF图6)。
- 多步骤组合推理 (Multi-step compositional reasoning): 许多ARC-AGI-2任务要求顺序应用某个规则,其中第N步的状态直接依赖于第N-1步的结果。例如,迭代地放置对象,下一个对象的位置和方向由前一个对象的放置情况决定(参考PDF图7)。预测对象N+1的位置几乎不可能不执行前N个步骤。
- 上下文规则应用 (Contextual rule application): ARC-AGI-2中的任务不仅要求测试者识别核心转换规则,还要求理解其应用如何受到网格内特定上下文元素的调节。这为推理链增加了一个额外的环节,通常涉及某种形式的控制流。例如,一个任务可能涉及分离形状并将它们堆叠到一边,但堆叠到哪一边(左或右)取决于一个上下文线索,如形状轮廓的颜色(参考PDF图8)。
- 在情境中定义符号 (In-context symbol definition): 许多ARC-AGI-2任务包含“符号”(代表自身以外事物的对象),其含义在任务内部被临时定义。例如,在PDF图1中,带有孔洞的彩色矩形编码了具有相同孔洞数量的形状应该使用的颜色。这种动态的符号赋值对前沿AI系统来说是一个重大挑战。
这些设计上的改变,使得ARC-AGI-2的任务不再仅仅是简单的模式匹配,而是要求AI展现出更深层次的抽象、推理和规划能力,这正是通向更通用人工智能的关键所在。
动画演示3:组合泛化挑战
此动画模拟了一个需要多规则组合推理的ARC-AGI-2任务的解决流程(概念简化自PDF图6)。
当前AI表现与ARC Prize 2025
ARC-AGI-2的引入,显著提升了对AI抽象推理能力的考验。如PDF中表1所示,之前在ARC-AGI-1上表现尚可的模型,在ARC-AGI-2上的得分出现了大幅下降:
模型 (Model) | ARC-AGI-1 得分 (Score) | ARC-AGI-2 得分 (Score) |
---|---|---|
o3-mini (High) | 34.5% | 3.0% |
o3 (Medium) | 53.0% | 3.0% |
ARChitects (ARC Prize 2024) | 56.0% | 2.5% |
o4-mini (Medium) | 41.8% | 2.4% |
Icecuber (ARC Prize 2020) | 17.0% | 1.6% |
注意:当ARC-AGI-2的准确率低于5%时,通常不被认为具有统计意义,可能源于噪声启发式或偶然的模式匹配。只有当性能超过5%的阈值时,才能开始显现出一致的信号。
这种得分的“断崖式下跌”清晰地表明了ARC-AGI-2所提出的新挑战的艰巨性。为了激励在这一领域的突破,ARC Prize 2025 竞赛已经启动,提供总额100万美元的奖金,旨在加速开源AGI研究的进展。其核心目标是激励AI研究人员通过开源解决ARC-AGI的方案来探索新思想和新方法。竞赛的评估协议非常严格:提交的方案需要在Kaggle的安全沙箱服务器环境(配备4个NVIDIA L4 GPU)中,在12小时的运行时限内,离线解决240个前所未见的ARC-AGI-2任务(120个半私有评估集任务和120个私有评估集任务),且全程无互联网访问。
动画演示4:模型表现断崖
此图表展示了部分顶尖AI模型在ARC-AGI-1和ARC-AGI-2上的得分对比。
动画演示5:人类测试洞察
ARC-AGI-2的设计经过了广泛的人类测试。此动画概念性地展示了人类在任务上花费时间与结果的分布趋势(灵感源自PDF图3)。
结论:迈向更真实的智能衡量
ARC-AGI-2不仅仅是其前身的简单升级,更是对AI研究方向的一次重要校准和挑战深化。它通过引入更独特、更复杂、更侧重组合泛化能力的任务,并辅以大规模、标准化的人类表现基准,显著提高了衡量AI系统真实流体智能和抽象推理能力的门槛。
从“物理逻辑”的视角看,ARC-AGI-2的“物理”形态(网格、对象、规则的呈现)变得更为精巧,旨在抵抗浅层策略;其“逻辑”内核则要求AI进行更深层次的、类似人类的思考过程——识别模式、形成假设、测试假设、组合知识、并适应全新的情境。这正是当前AI系统普遍存在的短板。
虽然目前顶尖模型在ARC-AGI-2上的表现不尽如人意,但这恰恰凸显了该基准的价值:它为我们指明了距离真正通用、灵活、高效的类人智能还有多远,并为未来的研究提供了清晰、可量化的目标。ARC-AGI-2及其相关的竞赛(如ARC Prize),无疑将继续在推动人工智能向更高阶认知能力迈进的征途中,扮演至关重要的角色,为通往通用人工智能的漫漫长路树立新的、更具挑战性的里程碑。