REASONINGBANK:通过推理记忆扩展智能体的自我进化能力

作者: Siru Ouyang¹, Jun Yan², I-Hung Hsu², Yanfei Chen², Ke Jiang², Zifeng Wang², Rujun Han², Long T. Le², Samira Daruki², Xiangru Tang³, Vishy Tirumalashetty², George Lee², Mahsan Rofouei, Hangfei Lin¹, Jiawei Han¹, Chen-Yu Lee² and Tomas Pfister²

机构: ¹伊利诺伊大学厄巴纳-香槟分校, ²谷歌云人工智能研究院, ³耶鲁大学, 谷歌云人工智能


摘要

随着大型语言模型智能体在持久性的现实世界角色中被越来越多地采用,它们自然会遇到连续不断的任务流。然而,一个关键的局限性是,它们无法从累积的交互历史中学习,这迫使它们丢弃宝贵的见解并重复过去的错误。我们提出了 REASONINGBANK,一个新颖的记忆框架,它从智能体自我判断的成功和失败经历中提炼出可泛化的推理策略。在测试时,智能体从 REASONINGBANK 中检索相关记忆以指导其交互,然后将新的学习内容整合回去,使其能够随着时间的推移变得更加强大。基于这个强大的经验学习器,我们进一步引入了记忆感知测试时扩展(MATTS),它通过扩大智能体的交互经验来加速和多样化这一学习过程。通过为每个任务分配更多的计算资源,智能体生成了丰富、多样的经验,为合成更高质量的记忆提供了丰富的对比信号。更好的记忆反过来又指导了更有效的扩展,从而在记忆和测试时扩展之间建立了强大的协同作用。在网页浏览和软件工程基准测试中,REASONINGBANK 始终优于现有的存储原始轨迹或仅存储成功任务例程的记忆机制,在效果和效率上都有所提高;MATTS 进一步放大了这些收益。这些发现将记忆驱动的经验扩展确立为一个新的扩展维度,使智能体能够通过自然出现的涌现行为进行自我进化。

摘要解读:

想象一个AI机器人,它的工作是帮你处理各种日常任务,比如上网订票、整理文件。这种机器人我们称之为“智能体”。现在的问题是,这个机器人有点“健忘”,它每次做任务都像第一次一样,完全不记得以前的经验。比如,它上次订票时走错了一个步骤,导致失败了,下次遇到同样的情况,它还是会犯同样的错误。它也记不住那些成功的巧妙方法。这就好比一个学生,做过的错题不总结,做对的题也不归纳方法,成绩自然很难提高。

为了解决这个问题,这篇论文提出了一个叫做 REASONINGBANK 的新方法,可以把它理解成给机器人装上了一个“超级大脑”或者“错题本+精华笔记”。这个“大脑”非常聪明,它会自动分析机器人每次任务的“经历”,不管是成功还是失败的,然后把其中最有价值的“经验教训”(也就是“推理策略”)总结提炼出来,存进一个“记忆库”里。比如,它会总结出“订票时,要先登录账户才能看到历史订单”这样的通用技巧,或者“如果A方法行不通,可以尝试B方法”这样的备用方案。

有了这个 REASONINGBANK,机器人每次接到新任务时,就会先去“记忆库”里翻一翻,看看有没有类似的经验可以借鉴。完成任务后,无论成败,新的经验又会被总结提炼,更新到“记忆库”里。这样一来,机器人就像一个会不断学习、总结、反思的好学生,越用越聪明,能力越来越强。

论文还提出了一个“进阶版”的学习方法,叫做 MATTS。这个方法的核心思想是“深度体验,集中学习”。它不是让机器人做更多的不同任务,而是在做一个任务时,投入更多的“精力”(计算资源),让它尝试用各种不同的方法去解决这一个问题。这就好比老师让学生用三种不同的方法解同一道数学题。通过比较这些不同方法的优劣(对比信号),机器人能总结出更深刻、更通用的解题规律,形成更高质量的“精华笔记”。这些高质量的笔记又能更好地指导它未来的行动,形成了一个“学习”和“实践”相互促进的良性循环。最终的实验结果表明,装上了“超级大脑”(REASONINGBANK)和学会了“深度学习法”(MATTS)的机器人,在上网和编程这些任务上,表现得比以前的机器人好得多,既做得对,又做得快。

1. 引言

大型语言模型(LLMs)的快速发展极大地加速了LLM智能体的开发,这些智能体对于处理需要与环境进行多步交互的复杂现实世界任务至关重要,包括网页浏览和计算机使用。随着这些智能体越来越多地被部署在持久的、长期运行的角色中,它们在其生命周期内自然会遇到连续不断的任务流。然而,它们在很大程度上未能从跨任务的累积经验中学习。通过孤立地处理每个任务,它们注定要重复过去的错误,丢弃从相关问题中获得的宝贵见解,并且缺乏使智能体系统随着时间推移变得更加强大的自我进化能力。这凸显了构建能够从过去经验中学习的记忆感知智能体系统的必要性。

引言解读 (第一段):

首先,作者肯定了现在AI技术(特别是大型语言模型,就是我们常说的“大模型”)的进步,让开发能干活的“AI智能体”变得更容易了。这些智能体很厉害,能帮我们完成一些复杂的操作,比如自动上网查资料、操作电脑软件等。现在我们想让这些AI智能体像真人一样,能7x24小时不间断地工作,处理一个又一个的任务。但问题来了:这些AI智能体是个“直肠子”,记不住教训。它们处理每个任务都是独立的,做完就忘。这就导致了三个很严重的问题:第一,重复犯错,上次掉进的坑,这次还会掉进去;第二,浪费经验,从一个任务中学到的技巧,不能应用到相似的任务上;第三,无法成长,AI用了一年还和第一天一样“笨”,没有“越用越聪明”的自我进化能力。所以,作者明确指出,我们急需给AI装上一个“记忆系统”,让它能从过去的经验中学习和成长。

近期在智能体记忆方面的努力主要集中在存储过去的交互以供重用。虽然有用,但这些方法通常仅限于利用原始轨迹或常见的、成功的例程(即工作流程、程序)。这些方法存在两个根本性的缺点。首先,它们缺乏提炼更高级别、可迁移的推理模式的能力。其次,通过过分强调成功的经验,它们使得智能体从自身失败中获得的宝贵教训在很大程度上未被探索。因此,现有的记忆设计通常仍然局限于被动的记录保存,而不是为未来的决策提供可操作的、可泛化的指导。

引言解读 (第二段):

接着,作者分析了当前已有的AI“记忆系统”有什么不足。目前的方法,基本上就是把AI过去的操作记录原封不动地存起来,像个录像机一样。这些记录(“原始轨迹”)或者一些被证明有效的固定套路(“成功例程”)确实有点用,但存在两大硬伤:

第一,不够“深刻”。它们只是简单地记录了“做了什么”,而没有去思考“为什么要这么做”。AI无法从中总结出更通用、更底层的规律或方法(“高级别、可迁移的推理模式”)。这就好比一个学生只知道背诵“这道题的答案是A”,却不理解背后的公式和原理,换个数字就不会做了。

第二,“报喜不报忧”。这些方法大多只关注成功的经验,把失败的经历当成垃圾一样扔掉了。但我们都知道,“失败是成功之母”,从错误中吸取的教训往往比成功的经验更宝贵。现在的AI记忆系统忽略了这一点,浪费了大量的学习机会。所以结论是,目前的AI记忆还只是个“被动记录员”,而不是一个能提供真知灼见的“主动指导员”。

已测试任务数量 成功任务数量 0 3 6 9 12 15 0 10 20 30 40 ReasoningBank 无记忆 商店内Top-2搜索 客户的最早订单 发票总额
图 1 | REASONINGBANK 归纳出可复用的推理策略,使记忆项对未来使用更具迁移性。这使得智能体能够持续进化,并在 WebArena-Admin 子集上比“无记忆”基线实现更高的累积成功率。

图1 解读:

这张图的核心思想非常直观,它展示了“学霸”和“普通学生”在连续做题过程中的成绩变化曲线。

我们可以清晰地看到,随着做的题目越来越多,两条线都在上升,说明两个AI都在解决问题。但关键的区别在于增长的速度和趋势。紫色实线明显比灰色虚线更“陡峭”,并且随着时间的推移,两条线之间的差距越来越大。这说明“学霸”AI的进步速度更快,解决问题的能力越来越强,体现了“学习和进化”的过程。而“普通”AI虽然也能做对一些题,但它的进步非常缓慢,更像是在原地踏步,没有从经验中获得成长。

图中标出的一些点,比如“商店内Top-2搜索”、“客户的最早订单”,代表了AI在测试过程中遇到的具体任务。红框圈出的部分尤其关键,它展示了在解决第20个任务左右时,“学霸”AI成功了,而“普通”AI可能就在这个或类似的任务上失败了或者效率低下,从而拉开了差距。这生动地说明了REASONINGBANK通过总结和运用过去的经验,帮助AI攻克了那些没有记忆就很难解决的复杂问题。

为了弥合这一差距,我们提出了REASONINGBANK,一个为智能体系统设计的新颖记忆框架。REASONINGBANK 从智能体自身判断的成功和失败经验中提炼和组织记忆项,无需真实标签。如图1所示,它不仅从成功中捕捉有效的策略,还从失败中捕捉关键的预防性教训,将它们抽象成一系列可操作的原则。这个过程以闭环方式运作:当面临新任务时,智能体从REASONINGBANK中检索相关记忆来指导其行动。之后,新的经验被分析、提炼并整合回REASONINGBANK中,使智能体能够持续进化和提升其战略能力。

方法介绍解读 (第一段):

这里正式隆重推出了本文的核心解决方案——REASONINGBANK。它的目标就是解决前面提到的所有问题。REASONINGBANK就像一个超级智能的“学习系统”,它有两个非常关键的特点:

第一,“成败兼收”:它不仅学习成功的案例,总结出“怎样做才能对”的有效方法;更重要的是,它还会仔细研究失败的案例,总结出“为什么会错”以及“如何避免再错”的宝贵教训。这就像一个顶尖学霸,不仅会归纳解题技巧,还有一个专门的错题本,反复研究自己的错误,确保不再犯。

第二,“闭环进化”:整个学习过程是循环不断的,形成一个正向反馈。具体来说就是:遇到新问题 → 翻阅记忆库找经验 → 利用经验解决问题 → 总结新经验(无论成败)→ 更新到记忆库。通过这个“学习-实践-总结-更新”的闭环,AI智能体的能力会像滚雪球一样越来越强,实现真正的自我进化。

以REASONINGBANK作为一个强大的经验学习器,我们研究经验扩展,以在记忆和测试时扩展之间建立强大的协同作用。我们不通过增加更多任务来从广度上扩展经验,而是专注于通过在每个任务上进行更多探索来从深度上扩展经验。我们在并行和顺序设置中引入了记忆感知测试时扩展(MATTS),它生成多样化的探索以提供对比信号,使REASONINGBANK能够合 成更具泛化性的记忆。它在记忆和测试时扩展之间创造了一种协同作用:高质量的记忆引导扩展的探索走向更有希望的路径,而生成的丰富经验则锻造出更强大的记忆。这个正向反馈循环将记忆驱动的经验扩展定位为智能体的一个新的扩展维度。

方法介绍解读 (第二段):

在拥有了强大的学习工具REASONINGBANK之后,作者们想让它的学习效率更上一层楼。他们提出了一个叫做MATTS的“高级训练法”。这个方法的核心思想,不是搞“题海战术”(做很多不同的任务),而是搞“精深研究”(在一个任务上投入更多精力)。

具体怎么做呢?就是当AI遇到一个任务时,让它用好几种不同的方式去尝试解决(“多样化探索”)。比如,解一道数学题,让它试试代数法、几何法、函数法等等。然后,AI会比较这些方法的优劣——哪个更快?哪个更准?哪个更通用?通过这种“横向比较”(“对比信号”),AI就能总结出更高质量、更普适的经验,存入REASONINGBANK。这就形成了一个完美的配合:高质量的记忆(来自REASONINGBANK)能告诉AI哪些尝试方向更有可能成功,避免了盲目探索;而深入的探索(MATTS)又反过来能产生更高质量的记忆。这个“好记性”和“勤钻研”相互促进的过程,作者称之为“记忆驱动的经验扩展”,认为这是提升AI能力的一个全新维度。

我们在具有挑战性的网页浏览(WebArena, Mind2Web)和软件工程(SWE-Bench-Verified)基准测试上进行了广泛的实验。我们证明,我们的方法在效果(相对改进高达34.2%,图4(b))和效率(交互步骤减少16.0%,表1)上均优于基线。具体来说,REASONINGBANK与MATTS的协同效果最佳,使其成为记忆驱动的经验扩展中不可或缺的组成部分。

实验结果概述:

“是骡子是马拉出来遛遛”。作者们在一些公认的难题库(基准测试)上对他们的方法进行了严格的考试,这些难题库涉及网页浏览和编程。结果非常亮眼:他们的方法不仅做得更好(正确率相对提升了34.2%),而且做得更快(操作步骤减少了16.0%)。这充分证明了REASONINGBANK和MATTS的组合拳威力十足,是提升AI能力的一大利器。

我们的贡献有三方面:(1)我们提出了REASONINGBANK,一个新颖的记忆框架,它从成功和失败的经验中提炼可泛化的推理策略,超越了先前仅限于原始轨迹或仅成功例程的工作。(2)我们引入了MATTS,它在记忆和测试时扩展之间创造了强大的协同作用,将记忆驱动的经验确立为智能体的一个新的扩展维度。(3)我们通过广泛的实验证明,我们的方法不仅在效果和效率上优于现有方法,而且使智能体能够从失败中学习,并随着时间的推移发展出日益复杂的、涌现的推理策略。

贡献总结:

最后,作者总结了他们的三大创新点:

  1. 提出了REASONINGBANK:一个更高级的记忆系统,能同时从成功和失败中学习,提炼出通用的智慧,而不仅仅是记录操作步骤。
  2. 引入了MATTS:一种全新的AI训练思路,通过“深度研究”而非“题海战术”来提升能力,并证明了“好记性”和“勤钻研”可以互相促进,实现1+1>2的效果。
  3. 用实验证明了方法的有效性:不仅效果好、效率高,更重要的是,这种方法让AI展现出了类似人类的“成长”能力——从错误中学习,并逐步掌握越来越复杂的解决问题的策略,这是一种“智慧涌现”的体现。

2. 相关工作

LLM智能体的记忆。 记忆已成为现代智能体系统中一个必不可少的模块,用以通过利用过去的信息来增强其性能。现有的记忆系统以多种形式组织和存储信息,包括纯文本、潜在知识嵌入和结构化图。除了记忆内容,这些方法通常还涉及检索机制(例如,语义搜索)和记忆管理策略(例如,更新)。最近,随着强化学习(RL)在LLM智能体中的发展日益增长,RL也被用于智能体系统中的记忆管理。虽然大多数努力主要强调个性化和长上下文管理,但本文属于从过去经验中学习的研究路线,将其作为记忆,这是发展自我进化智能体系统的一个关键方面。与以往强调重用成功轨迹或程序化工作流程的作品不同,REASONINGBANK存储了高级策略和推理提示。通过将经验抽象为可复用的推理单元,REASONINGBANK使智能体不仅能从成功案例中泛化,还能通过从失败中学习来进行泛化,从而为测试时学习提供更丰富的指导。此外,我们是第一个探索记忆感知测试时扩展的,其中REASONINGBANK与来自大量探索轨迹的多样化信号协同工作。

相关工作解读 (LLM智能体的记忆):

这部分内容是“文献综述”,即在提出自己的新方法前,先梳理一下前人都做过哪些相关的研究,以及他们的研究有什么局限性。这既是对前人工作的尊重,也是为了凸显自己工作的创新之处。

作者提到,给AI装上“记忆”已经成为共识。大家尝试了各种各样的记忆存储方式,比如像记事本一样存成纯文本,或者把知识压缩成AI能理解的数学形式(潜在知识嵌入),还有的用思维导图那样的结构化图来存储。光有存储还不够,还得有快速找到所需记忆的方法(检索机制)和定期整理、更新记忆的策略(记忆管理)。甚至有人用强化学习(一种让AI通过试错来学习的方法)来管理记忆。

然而,作者指出,之前的大部分研究主要把记忆用在两个方面:一是个性化,让AI记住你的偏好,更好地为你服务;二是长上下文管理,解决AI聊着聊着就忘了前面说过啥的问题。而本文关注的是一个更核心、更具挑战性的方向:让AI通过记忆实现自我进化和成长

接着,作者指出了以往“自我进化”研究的不足:它们要么是简单地重复使用过去成功的操作录像(成功轨迹),要么是学习一些固定的操作流程(程序化工作流程)。而本文提出的 REASONINGBANK 更胜一筹,它存储的不是具体的操作步骤,而是更高层次的策略和思想(“高级策略和推理提示”)。它把经验提炼成通用的“智慧”,并且能同时从成功和失败中学习。最后,作者强调本文的另一个首创之处:将这种高级记忆与“深度体验”式的学习方法(MATTS)相结合,让记忆和探索性学习擦出火花。

智能体测试时扩展。 测试时扩展(TTS)已显示出强大的效果,并已成为端到端问题解决中广泛采用的做法,例如编码和数学推理,其中常用的方法包括N中选优、束搜索以及利用验证器。然而,其在多轮交互场景,特别是智能体任务中的应用仍未得到充分探索。现有的工作主要借鉴了从推理任务中学到的经验,并扩展了智能体系统的不同维度,包括每个动作的搜索空间、多智能体系统中的智能体数量以及与环境的交互次数。我们发现,这些努力都没有考虑到智能体记忆在扩展中的作用,即智能体可以从过去的经验中学习以指导未来的决策。我们的工作通过引入记忆感知测试时扩展(MATTS)来扩展这一研究领域。正如我们将在实证结果中展示的,记忆提供的好处超越了单纯的计算扩展,其中记忆和扩展协同工作以实现更好的性能。

相关工作解读 (智能体测试时扩展):

这里讨论的是另一个相关领域:“测试时扩展”(Test-Time Scaling, TTS)。这个术语听起来很专业,但它的核心思想很简单,就是“临时抱佛脚,大力出奇迹”。具体来说,就是在AI“考试”(测试)的时候,不让它只思考一次就给出答案,而是投入更多的计算资源,让它多想几种可能性,或者更深入地思考,从而提高最终答案的正确率。

比如,在编程或做数学题这类一次性出结果的任务上,大家常用一些技巧:像“N中选优”(让AI生成N个答案,然后挑个最好的),或者“束搜索”(一种更聪明的搜索策略,保留几种最有可能的解题路径继续探索)。这些方法已经被证明很有效。

但是,作者指出,这种“大力出奇迹”的方法在需要和环境一步步交互的“智能体任务”(比如上网购物)中,用得还比较少。虽然有人尝试过扩大每一步的选择范围,或者用更多的AI协作,但他们都忽略了一个关键因素:记忆。之前的研究没有想过,AI在“大力出奇迹”的时候,如果能借鉴过去的经验,是不是能“抱佛脚”抱得更准、更有效率?

因此,本文的另一个创新点就是把“记忆”和“测试时扩展”结合起来,提出了MATTS。作者预告说,后面的实验会证明,记忆和扩展的结合,不是简单的1+1=2,而是能产生协同效应,达到1+1>2的惊人效果。

3. 方法论

在本节中,我们介绍问题设置(§3.1),并提出我们所设计的REASONINGBANK(§3.2),在此基础上我们进一步开发了记忆感知测试时扩展(MATTS)(§3.3)。

3.1. 问题形式化

智能体配置。 本工作的范围集中于基于LLM的智能体。智能体策略 $\pi_{L}(\cdot|\mathcal{M},\mathcal{H})$ 由骨干LLM L参数化,并以一个记忆模块M和动作空间A为条件,简写为 $\pi_{L}$。智能体需要通过与环境交互来执行任务,这可以被看作一个顺序决策过程。形式上,环境的转移函数定义为 $\mathcal{T}(s_{t+1}|s_{t},a_{t})$,其中 $s_{t}$ 是状态,$a_{t}$ 是选择的动作。

问题形式化解读 (第一部分):

这部分开始进入“说人话”到“说数学语言”的转换阶段,目的是用精确、无歧义的符号来定义问题,这是科学研究的范式。其实质是把前面描述性的概念,用数学模型来表达。

总而言之,这段话用数学语言把一个AI智能体的工作过程定义清楚了:AI有一个依赖记忆的决策大脑($\pi_L$),它在一个会根据其行为而变化的环境($\mathcal{T}$)中,一步一步地做出决策来完成任务。

(i) 记忆检索 任务 $q_i$: 用户 ➞ 智能体 ➞ 环境 (产生经验/轨迹) (ii) 记忆提取 新记忆项 (iii) 记忆整合 🧠 ReasoningBank: 记忆项集合 时间 → 任务 $q_1$ (✓) 任务 $q_2$ (✗) ... 任务 $q_i$ ... 任务 $q_N$
图 2 | REASONINGBANK 概览。经验被提炼成包含标题、描述和内容的结构化记忆项。对于每个新任务,智能体检索相关项与环境交互,并从成功和失败的轨迹中构建新的记忆项。这些项随后被整合进REASONINGBANK,形成一个闭环的记忆过程。

图2 解读:

这张图是 REASONINGBANK 工作流程的核心示意图,清晰地展示了前面提到的“闭环进化”过程。我们可以把它看作一个AI的学习循环:

  1. (i) 记忆检索 (Memory Retrieval): 当一个新的任务(比如任务 $q_i$)来了,AI不是马上动手,而是先去它的大脑“ReasoningBank”里查找相关的“记忆”。这就像我们遇到问题时,会先回想一下以前有没有处理过类似的事情。
  2. 与环境交互: AI带着从记忆库里找到的“锦囊妙计”,开始与环境(比如一个网站)进行交互,一步步尝试解决问题。这个过程会产生一个完整的操作记录,我们称之为“经验”或“轨迹”。
  3. (ii) 记忆提取 (Memory Extraction): 任务完成后(不管是成功✓还是失败✗),AI会对刚刚产生的“经验/轨迹”进行复盘和总结。一个专门的“记忆提取器”会把这次经历中最有价值的教训或技巧提炼出来,形成结构化的“记忆项”。每个记忆项都包含标题、描述和具体内容,像一条条清晰的笔记。
  4. (iii) 记忆整合 (Memory Consolidation): 新提炼出来的“记忆项”会被添加回“ReasoningBank”这个总的记忆库里,让记忆库的内容越来越丰富。

整个过程形成了一个完美的闭环。AI通过检索旧记忆 → 产生新经验 → 提取新记忆 → 整合进记忆库的循环,不断地学习和成长。下面的时间轴也表明,这个过程是随着AI完成一个又一个任务而持续进行的,从而实现了能力的长期进化。

我们专注于网页浏览和软件工程(SWE)任务。A是一组用于网页浏览的网页导航操作和用于SWE任务的bash命令,M是REASONINGBANK,并初始化为空。对于每个给定的任务,智能体生成一个 t 步的轨迹 $(o_{0:t}, a_{0:t})$,其中观测 $o_t$ 来自当前状态 $s_t$。观测是网页浏览任务中基于文本的网页可访问性树和SWE中的代码片段。智能体需要通过 $\pi_{\mathcal{L}}(o_{0:t},a_{0:t};\mathcal{M},\mathcal{H})\rightarrow a_{t+1}$ 生成一个动作 $a_{t+1} \in \mathcal{A}$。在实现中,记忆模块M贡献相关记忆作为$\pi_{L}$的附加系统指令。

问题形式化解读 (第二部分):

这里继续用更具体的细节来描述问题。

测试时学习。 我们专注于测试时学习范式,其中一系列任务查询 $Q=\{q_1, q_2, ..., q_N\}$ 以流式方式到达,即每个查询被揭示并且必须在没有访问未来查询的情况下顺序完成。在这种设置中,测试期间没有可用的真实标签,因此智能体必须仅利用其自身的过去轨迹和任何自验证来持续进化,而不依赖于外部标签。这种流式设置突出了两个关键挑战:(i)如何从过去的轨迹中提取和保存有用的记忆,以及(ii)如何有效地利用这些记忆来处理未来的查询,以避免冗余地重新发现已经成功的策略或重复过去的错误。

测试时学习解读:

这里定义了AI学习的环境和规则,叫做“测试时学习”。这个名字有点反直觉,可以理解为“边干边学,现学现卖”。

它的核心设定是:

这种设定非常贴近现实世界,因为在真实工作中,我们往往也是在没有标准答案的情况下,依靠过去的经验来解决一个又一个未知的新问题。这种设定也引出了AI面临的两大核心挑战:

  1. 如何总结经验?(从过去的经历中提取和保存有用的记忆)
  2. 如何运用经验?(有效地利用这些记忆来更好地解决新问题,避免走弯路、犯旧错)

而这篇论文提出的REASONINGBANK,正是为了解决这两个核心挑战。

3.2. REASONINGBANK

过去的原始轨迹(或经验),虽然全面且原始,但通常过于冗长和嘈杂,无法直接应用于当前的用户查询。如图2所示,REASONINGBANK将有用的策略和推理提示从过去的经验中提炼为结构化的记忆项,然后存储起来以备将来重用。

REASONINGBANK核心思想解读:

这里再次强调了REASONINGBANK的核心价值。直接把过去的“操作录像”(原始轨迹)拿来用,效果并不好。因为这些录像太长、太乱,充满了无关紧要的细节(“冗长和嘈杂”)。这就好比你想学习怎么做一道菜,直接看一段未经剪辑的、长达两小时的厨房录像,效果肯定不如看一个经过精心剪辑、提炼了关键步骤和技巧的5分钟短视频。

REASONINGBANK扮演的就是那个“金牌剪辑师”的角色。它不存储原始录像,而是从录像中提炼出精华——那些通用的策略和关键的思考点(“推理提示”),然后把它们整理成一条条结构清晰、易于理解的“笔记”(“结构化的记忆项”),存入记忆库,方便日后随时查阅和使用。

记忆模式。 REASONINGBANK中的记忆项被设计并从过去的经验中归纳为结构化的知识单元,它们抽象掉了低级别的执行细节,同时保留了可迁移的推理模式和策略。每个记忆项指定三个组成部分:(i)一个标题,作为总结核心策略或推理模式的简洁标识符;(ii)一段描述,提供对记忆项的简短单句摘要;以及(iii)内容,记录从过去经验中提取的提炼后的推理步骤、决策理由或操作见解。总而言之,提取出的记忆项既是人类可解释的,也是机器可用的。

记忆模式解读:

这里详细说明了“笔记”的具体格式,也就是“记忆模式”。这种格式的设计非常巧妙,旨在让记忆既清晰又实用。每一条记忆笔记都像一张知识卡片,包含三个标准部分:

  1. 标题 (Title):一句话点明核心思想。比如:“高效查找商品的用户评论”。这就像一本书的章节标题,让你能快速索引和定位。
  2. 描述 (Description):用一句话概括这条记忆是干什么用的。比如:“本条策略用于在电商网站上快速定位到包含特定关键词的用户评论区。”这就像标题下面的小字注解,进一步解释了适用场景。
  3. 内容 (Content):这是最重要的部分,记录了具体的、提炼过的操作步骤、思考逻辑或关键技巧。比如:“1. 优先使用页面自带的‘筛选’或‘排序’功能。2. 如果没有,检查是否有‘跳转到评论区’的链接。3. 实在找不到,再使用页面内查找(Ctrl+F)功能。”

通过这种“标题-描述-内容”的三段式结构,记忆变得非常规整。它剥离了那些无关紧要的细节(比如具体的商品名叫什么,上次是几点几分操作的),只保留了可以被举一反三、应用到其他类似任务上的通用智慧(“可迁移的推理模式和策略”)。这样的记忆,不仅我们人能看懂(“人类可解释的”),AI也能直接读取并使用(“机器可用的”),非常高效。

REASONINGBANK与智能体的集成。 配备了REASONINGBANK的智能体可以利用一个精心策划的可迁移策略池来指导决策。这使得智能体能够回忆起有效的见解,避免先前观察到的陷阱,并更稳健地适应未见的查询。集成过程分三步进行:(i)记忆检索,(ii)记忆构建,和(iii)记忆整合,如图2所示。在记忆检索期间,智能体使用当前查询上下文查询REASONINGBANK,以使用基于嵌入的相似性搜索识别出前k个相关的经验及其对应的记忆项。检索到的项被注入到智能体的系统指令中,确保决策过程基于有用的过去经验。当当前查询任务完成时,我们将执行记忆构建以提取新的记忆项。第一步是为已完成轨迹的正确性获取代理信号:我们采用一个“以LLM为法官”的方法来标记结果为成功或失败,无需访问任何真实标签。基于这些信号,我们应用不同的提取策略:成功的经验贡献了经过验证的策略,而失败的经验则提供了反事实信号和陷阱,有助于加强防护栏。在实践中,我们为每个轨迹/经验提取多个记忆项,详见附录A.1。最后,记忆整合通过简单的加法操作将这些项合并到REASONINGBANK中,维持一个不断演变的记忆项存储库。详情在附录A.2。总之,这些步骤形成一个闭环过程:智能体利用过去的经验,从当前任务中构建新的记忆,并不断更新其记忆,从而在测试时学习场景中实现持续进化。

集成过程解读:

这段详细解释了AI是如何使用REASONINGBANK这个“超级大脑”的,也就是前面图2展示的那个闭环过程的具体化。

第一步:(i) 记忆检索 (好比“考前回想”)

当AI接到一个新任务时,它会把任务描述转换成一种数学表达(“嵌入”),然后去记忆库里进行“相似度搜索”。这就像你在搜索引擎里输入关键词一样,AI会找到过去处理过的、和当前任务最相似的 k 个经验,以及与之关联的“智慧笔记”。然后,这些笔记会被直接塞进AI的“脑海”里,作为这次行动的“指导方针”。

第二步:(ii) 记忆构建 (好比“考后复盘”)

任务完成后,AI需要进行复盘总结。但由于没有老师,它怎么知道自己做得对不对呢?这里用了一个很酷的方法:“以LLM为法官”。就是让另一个大语言模型(或者它自己)扮演“裁判”的角色,根据任务要求和AI的最终结果,判断这次任务是“成功”还是“失败”。

得到“判决”后,AI会用不同的方式进行总结:

通常一次经历可以总结出好几条有价值的笔记。

第三步:(iii) 记忆整合 (好比“更新笔记”)

新总结出来的笔记,会通过最简单直接的方式——“加法操作”,直接添加到REASONINGBANK记忆库里。这样,记忆库就会像滚雪球一样,随着AI经验的增多而越来越丰富。

这三步完美地构成了一个学习-应用-总结-更新的闭环,让AI在不断的实践中实现了自我进化。

3.3. MATTS:记忆感知测试时扩展

REASONINGBANK使得从经验中学习能够将更多的经验转化为更大的改进。由于测试时扩展最近已成为提升LLM智能体性能的强大策略,它通过分配额外的推理时计算来生成大量的探索历史,显示出强大的潜力。REASONINGBANK与测试时扩展的直接组合如图3(a)所示,其中更多的轨迹被独立地转换为更多的记忆项。然而,这种朴素的形式是次优的,因为它没有利用在同一问题上进行冗余探索时产生的内在对比信号,这限制了测试时扩展带来的性能优势。为了解决这个问题,我们提出了记忆感知测试时扩展(MATTS),一种将测试时扩展与REASONINGBANK新颖集成的方 法。与朴素方法不同,MATTS刻意从扩展过程中生成的大量成功和失败轨迹中学习,以进行更有效的记忆策划。我们为MATTS设计了两种互补的实例化:并行扩展和顺序扩展,如图3(b)和3(c)所示,详细实现在附录A.3中。

MATTS解读 (第一段):

有了REASONINGBANK这个高效的“学习工具”后,作者们思考如何为它提供更高质量的“学习材料”。他们想到了“测试时扩展”(TTS),也就是前面说的“大力出奇迹”的方法。最简单的结合方式(图3a),就是让AI用TTS方法产生一大堆的“解题记录”(轨迹),然后让REASONINGBANK挨个去分析总结。这就像让一个学生疯狂刷题,然后把每道题的解法都记下来。

但作者认为这种“朴素”的结合方式不够好(“次优”)。因为它忽略了一个宝贵的信息来源:对比。当你用多种方法解同一道题时,通过比较这些方法的优劣,你能学到更多。简单地把每个解法孤立地记下来,就浪费了这种“对比信号”。

因此,他们提出了更高级的结合方式——MATTS (记忆感知测试时扩展)。MATTS的核心思想是,有意识地、聪明地去利用“大力出奇迹”时产生的海量信息。它不仅仅是记录,更是要去比较和提炼。为了实现这一点,作者设计了两种具体的策略:

并行扩展。 在并行设置中,我们在检索到的记忆项的指导下,为同一个查询生成多个轨迹。通过在不同轨迹之间进行比较和对比(自对比),智能体可以识别出一致的推理模式,同时过滤掉虚假的解决方案。这个过程使得从单个查询的多次尝试中进行更可靠的记忆策划成为可能,从而促进了多样化的探索。

并行扩展解读:

这个策略就像老师让全班同学用不同方法解同一道题,然后把所有人的草稿纸收上来进行分析。具体做法是:

针对一个任务,AI会同时(并行)地生成好几条不同的解题路径(轨迹)。这些路径中,有的可能成功了,有的可能失败了。然后,AI会扮演“老师”的角色,把这些“草稿纸”放在一起进行“自对比”:

通过这种多角度的对比分析,AI能总结出更可靠、更经得起考验的“智慧笔记”,存入记忆库。这大大提升了学习的质量。

顺序扩展。 我们遵循自精炼的原则,在初始完成后,在单个轨迹内迭代地精炼其推理。在此过程中,自精炼中产生的中间笔记也被用作记忆的有价值信号,因为它们捕捉了可能不会出现在最终解决方案中的推理尝试、修正和见解。

顺序扩展解读:

这个策略则更像一个学霸在做完一道难题后,不着急对答案,而是自己反复检查、修改、完善解题过程。具体做法是:

AI先完成一次解题,得到一个初步的“解题路径”(轨迹)。然后,它会启动“自精炼”(self-refinement)模式,对自己刚才的解题过程进行反思和迭代优化:

这个反复检查、修改的过程本身,就充满了宝贵的“思维火花”。那些被修正的错误、被优化的步骤、以及各种“当时的想法”(“推理尝试、修正和见解”),都是非常有价值的学习材料。即使这些思考过程最终没有体现在完美的答案里,也应该被记录下来,存入记忆库。这就像学霸的草稿纸,虽然看起来乱,但上面记录的思维过程可能比最终的干净卷面更有启发性。

REASONINGBANK 论文深度解读 (6-10页)
(a) 朴素TTS (MATTS无聚合) 记忆 1 记忆 2 记忆 n ... 轨迹 1 轨迹 2 轨迹 n ... 新记忆 1 新记忆 2 新记忆 n ... 任务 $q_i$ 任务 $q_{i+1}$ (b) MATTS - 并行 当前记忆 轨迹 1 (✓) 轨迹 2 (✗) ... 轨迹 n (✓) 自对比 新记忆 任务 $q_i$ 任务 $q_{i+1}$ (c) MATTS - 顺序 当前记忆 自精炼 轨迹 轨迹' 新记忆 任务 $q_i$ 任务 $q_{i+1}$
图 3 | (a) 朴素TTS 与 MATTS 的比较:(b) 并行扩展,通过跨多个轨迹的自对比来策划可靠的记忆;(c) 顺序扩展,通过自精炼以中间推理信号丰富记忆。

图3 解读:

这张图非常关键,它用可视化的方式对比了三种不同的“深度学习”策略。

(a) 朴素TTS (Vanilla TTS): 这是最基础的方法。它就像一个“单线程”的学习者。对于每一次尝试(从“记忆1”出发产生“轨迹1”),它都独立地总结出一条“新记忆1”。这些学习过程互不相干,信息没有交叉,因此效率低下,没能利用好多样化探索带来的好处。

(b) MATTS - 并行 (Parallel): 这是“并行扩展”策略,是一个“集思广益”的学习者。当接到一个任务(任务 $q_i$)时,它会利用“当前记忆”,一口气生成多个不同的解决方案(轨迹1, 2, ..., n)。这些方案有好有坏(✓代表成功, ✗代表失败)。最关键的一步是“自对比 (Self-Contrast)”。AI会把所有这些方案放在一起比较分析,找出成功方案的共性,分析失败方案的症结,从而提炼出一条更高质量的“新记忆”。这种方法显然比(a)中孤立地学习要深刻得多。

(c) MATTS - 顺序 (Sequential): 这是“顺序扩展”策略,是一个“精益求精”的学习者。它先利用“当前记忆”生成一个初步的解决方案(轨迹)。然后,它不满足于此,而是启动“自精炼 (Self-Refine)”模式,对这个方案进行反复的推敲、修改和优化(从轨迹变成轨迹')。这个“雕琢”的过程本身就蕴含了大量的思考,比如为什么某个地方需要修改。最终,AI会根据这个精炼过的、更完美的方案来总结出“新记忆”。

总的来说,(b)和(c)都是MATTS提出的更聪明的学习方法,它们都强调了通过对比反思来深化学习,而不是像(a)那样简单地堆砌经验。

表 1 | REASONINGBANK 在 WebArena 基准测试上的实验结果。报告了 5 个子集上 3 种不同骨干 LLM 的成功率 (SR ↑) 和步骤数 (Step ↓)。
模型 购物 (187) 管理 (182) Gitlab (180) Reddit (106) 综合 (29) 总体 (684)
SR / 步数 SR / 步数 SR / 步数 SR / 步数 SR / 步数 SR / 步数
Gemini-1.5-flash
无记忆 39.0 / 8.2 44.5 / 9.5 13.3 / 33.9 55.7 / 6.7 10.3 / 10.0 40.5 / 9.7
Synapse 40.6 / 7.0 45.1 / 9.1 35.6 / 13.0 59.4 / 6.5 10.3 / 10.5 42.1 / 9.2
AWM 44.4 / 7.0 46.7 / 8.8 37.2 / 13.2 62.3 / 6.1 3.4 / 7.7 44.1 / 9.0
REASONINGBANK 49.7 / 6.1 51.1 / 8.2 40.6 / 12.3 67.0 / 5.6 13.8 / 8.8 48.8 / 8.3
Gemini-1.5-pro
无记忆 45.5 / 7.6 51.1 / 8.7 35.0 / 11.6 71.7 / 6.0 8.8 / 6.9 46.7 / 8.8
Synapse 46.5 / 6.6 52.2 / 8.9 38.3 / 11.3 68.9 / 5.9 9.0 / 6.9 47.7 / 8.5
AWM 48.1 / 6.4 49.3 / 9.8 40.0 / 11.2 68.9 / 6.4 9.3 / 3.4 47.6 / 8.7
REASONINGBANK 51.9 / 6.0 56.6 / 7.7 44.4 / 9.8 80.2 / 5.1 13.8 / 8.2 53.9 / 7.4
Claude-3.5-sonnet
无记忆 38.5 / 6.1 49.5 / 8.4 36.7 / 10.6 53.8 / 5.5 0.0 / 11.6 41.7 / 8.0
Synapse 39.6 / 5.8 50.5 / 8.5 38.0 / 10.0 53.8 / 6.1 0.0 / 11.8 42.6 / 7.9
AWM 39.6 / 7.2 47.8 / 9.3 34.6 / 10.9 52.8 / 7.0 0.0 / 12.4 40.8 / 8.9
REASONINGBANK 44.9 / 5.6 53.3 / 7.6 41.1 / 9.5 57.5 / 5.2 3.4 / 10.5 46.3 / 7.3

他们捕捉推理尝试、修正以及可能不会出现在最终解决方案中的见解。

解读:

这句话似乎是上一页末尾句子的重复,应该是排版错误。它强调了顺序扩展(自精炼)的价值,即能捕捉到最终答案中看不到的宝贵思考过程。

我们将扩展因子定义为k,表示并行扩展的轨迹数量和顺序扩展的精炼步骤数。配备了REASONINGBANK,并行和顺序策略都变得具有记忆感知能力,确保在测试时分配的额外计算能够转化为更具可迁移性和更高质量的未来任务记忆。

解读:

这里定义了一个关键参数 k,也就是“扩展因子”,它量化了“大力出奇迹”的力度。在“并行扩展”中,k 就是同时生成的方案数量;在“顺序扩展”中,k 就是自我反思和修改的次数。作者强调,因为有REASONINGBANK的存在,这种投入(额外的计算)不会白费,而是能高效地转化为更高质量的、能举一反三的“智慧笔记”,为未来的任务服务。

4. 实验

4.1. 设置

遵循现有工作,我们在WebArena和Mind2Web上进行实验。WebArena的特点是跨多个不同领域的一般性网页导航,而Mind2Web则测试智能体在多种操作和环境中的泛化能力。我们还在SWE-Bench-Verified上进行实验,用于存储库级别的问题解决。为了进行比较,我们考虑了从无记忆智能体(No Memory)到基于轨迹的记忆(Synapse)和基于工作流程的记忆(AWM)的基线。我们的智能体基于在BrowserGym环境(用于网页浏览)和纯bash环境(用于SWE)中运行的Gemini-1.5和Claude-3.5模型构建,遵循ReAct风格和默认解码配置。评估重点是效果(成功率)和效率(平均交互步骤),具体指标因每个数据集而异。数据集、基线、实现和评估协议的完整描述见附录B。

实验设置解读:

这部分详细说明了实验是怎么做的,确保实验是公平、可复现的。

4.2. REASONINGBANK的结果

表1、2、3总结了REASONINGBANK在WebArena、Mind2Web和SWE-Bench-Verified上的主要评估结果。我们有以下观察。

REASONINGBANK在所有数据集上始终优于所有LLM骨干的基线。 具体来说,与无记忆智能体相比,REASONINGBANK在WebArena(表1)上的总体成功率通过三种不同的骨干LLM分别提高了+8.3、+7.2和+4.6。在Mind2Web(表3)上也存在类似的模式,其中REASONINGBANK在跨任务、跨网站和跨领域设置中均取得了明显的收益,这突显了其优势在不同数据集和模型规模上的一致性和可扩展性。在SWE-Bench-Verified(表2)上的结果进一步证实了其稳健性。至关重要的是,与像Synapse和AWM这样依赖于仅从成功轨迹中获得的狭窄、同质记忆源的基线不同,REASONINGBANK采用了一种卓越的提取策略,这是其持续优越表现的关键。

表1及第一段结果解读:

核心结论:REASONINGBANK 全面碾压!

表1分析:这张表格是实验的核心证据之一。它清晰地展示了在WebArena这个“上网能力大考”中,不同AI的表现。数据分为“成功率(SR)”和“平均步数(Step)”。成功率越高越好,步数越低越好

无论使用哪种大模型作为AI的大脑(Gemini-1.5-flash, Pro, 或是Claude-3.5-sonnet),REASONINGBANK(表格中加粗的行)在几乎所有测试项目(购物、管理等)以及最终的总分(Overall)上,都取得了最高的成功率几乎总是最低的步数。例如,在使用最强的Gemini-1.5-pro模型时,REASONINGBANK的总成功率达到了53.9%,远高于“无记忆”的46.7%,也高于另外两个记忆方法。同时,它的平均步数只有7.4,是所有方法中最快的。

文字解读:作者从数据中得出了第一个关键观察:REASONINGBANK不是偶尔表现好,而是在所有测试中,稳定地、全面地优于其他所有方法。无论是在网页浏览任务上,还是在更难的编程任务上(见表2),无论AI的大脑是哪个型号,REASONINGBANK都是最强的。作者特别强调了其成功的原因:不像其他方法那样只从“成功经验”中学习(“狭窄、同质记忆源”),REASONINGBANK能同时从成功和失败中提炼智慧(“卓越的提取策略”),这才是它能够持续胜出的根本原因。

表 2 | REASONINGBANK 在 SWE-Bench-Verified 数据集上解决给定存储库中问题的实验结果。
方法 解决率 步数
Gemini-1.5-flash
无记忆 34.2 30.3
Synapse 35.4 30.7
REASONINGBANK 38.8 27.5
Gemini-1.5-pro
无记忆 54.0 21.1
Synapse 53.4 21.0
REASONINGBANK 57.4 19.8

REASONINGBANK通过更好的跨任务可迁移记忆增强了泛化能力。 我们还在具有挑战性的泛化设置中进行了评估。在WebArena(表1)上,Multi子集要求在多个网站之间迁移记忆,其中REASONINGBANK的平均成功率比较强的基线高出+4.6。相比之下,像AWM这样的强基线未能提供增益,甚至在这种设置下性能下降。在Mind2Web(表3)上,其中包括跨任务、跨网站和跨领域的评估,这些评估提出了逐渐更高的要求,REASONINGBANK持续提高了成功率。在需要最高泛化水平的跨领域设置中,增益尤其明显。这些结果表明,由REASONINGBANK策划的记忆更稳健、更具可迁移性,使智能体能够在多样化的场景中有效地泛化。

表2及第二段结果解读:

核心结论:REASONINGBANK 擅长举一反三!

表2分析:这张表展示了在“编程修bug”这项更专业的任务上,不同AI的表现。结果与表1高度一致:REASONINGBANK 再次取得了最高的解决率最少的步数。例如,在使用Gemini-1.5-pro时,它的问题解决率达到了57.4%,并且平均只用了19.8步,效率惊人。

文字解读:作者得出了第二个关键观察:REASONINGBANK 学到的知识不是死知识,而是可以灵活运用的“活智慧”,也就是泛化能力强。作者举了两个例子:

  1. 在WebArena的“Multi”子测试中,任务需要AI将在一个网站学到的经验应用到另一个完全不同的网站上。这对“举一反三”的能力要求很高。结果,REASONINGBANK表现出色,而另一个看起来很强的AWM方法反而“翻车”了,说明AWM学到的可能是特定网站的“死套路”,换个地方就不灵了。
  2. 在Mind2Web测试中,难度是层层递进的:从“跨任务”(同一网站不同任务)到“跨网站”(不同网站相似任务),再到最难的“跨领域”(比如从购物网站学到的经验用到社交网站上)。REASONINGBANK在所有难度等级上都表现优异,尤其是在最难的“跨领域”测试中,优势更加明显。

这一切都证明,REASONINGBANK提炼出的“智慧笔记”是高度抽象和通用的,真正抓住了解决问题的本质,因此能够跨越任务、网站甚至领域的界限,实现高效的知识迁移。

REASONINGBANK通过利用过去的经验作为记忆,实现了卓越的效率。 除了更高的成功率,REASONINGBANK还减少了完成任务所需的交互步骤数,如表1和表2中的Step指标所示。在WebArena上,几乎在所有子集和骨干模型中,REASONINGBANK与“无记忆”相比,平均步数减少了高达1.4步,与其他记忆基线相比减少了1.6步。在SWE-Bench-Verified上的平均步数也更少,分别节省了2.8和1.3步。这表明REASONINGBANK使智能体能够通过重用和提炼推理知识来更有效地解决任务,从而避免了不必要或冗余的探索。

第三段结果解读:

核心结论:REASONINGBANK 不仅做得好,还做得快!

作者在这里强调了除了“效果好”(成功率高)之外的另一个巨大优势——“效率高”(步骤少)。通过回顾表1和表2中的“步数 (Step)”数据,可以清晰地看到,REASONINGBANK完成任务所需的平均操作步骤几乎总是最少的。相比于“无记忆”的AI,它少走了很多弯路;相比于其他两种记忆方法,它也更直接、更高效。

这个现象背后的原因很简单:正是因为REASONINGBANK的记忆库里存放的是高质量的、提炼过的“智慧”,它能帮助AI在决策时更有方向性,直奔主题,避免了大量的盲目尝试和重复性探索(“不必要或冗余的探索”)。这就像一个经验丰富的老手,和一个新手去解决同一个问题,老手因为脑子里有清晰的思路和预案,所以能迅速搞定,而新手则需要到处摸索,反复试错。

4.3. MATTS的结果

我们在WebArena-Shopping子集上使用Gemini-1.5-flash对MATTS进行了实验。默认情况下,MATTS集成了REASONINGBANK,但它也可以使用其他记忆机制。为了研究整体的扩展效果,我们与以下几种情况进行了基准比较:(i)MATTS w/o memory(无记忆的MATTS),代表没有记忆机制的扩展设置;(ii)MATTS w/o aggregation(无聚合的MATTS),等同于图3(a)中的朴素TTS;以及(iii)MATTS,以展示相对于扩展因子k的效果。值得注意的是,k=1是无扩展的设置。对于并行扩展,我们计算N中选优(BON)作为最终指标,详见附录A.3。结果如图4所示。

MATTS实验设置解读:

现在,实验的焦点转移到了验证那个“深度学习法”——MATTS——的效果。实验场地选在了WebArena的“购物”区,AI的大脑是Gemini-1.5-flash。

为了公平地评估MATTS到底有多厉害,作者设置了几个对照组:

  1. MATTS w/o memory (无记忆的MATTS): 只用“深度学习法”,但AI是个“健忘眼”,没有REASONINGBANK。这用来检验MATTS本身的效果。
  2. MATTS w/o aggregation (无聚合的MATTS): 也就是图3(a)里那个“朴素”的方法,让AI“疯狂刷题”但不进行“对比总结”。这用来证明MATTS的“对比总结”步骤是多么重要。
  3. MATTS: 完全体,即REASONINGBANK + MATTS的王牌组合。

实验的关键变量是扩展因子 k,也就是“努力程度”。k越大,代表AI在每个任务上投入的探索精力越多。k=1就代表不使用MATTS的普通情况。结果会用下面的图4来展示。

(a) 并行扩展 k 成功率 (SR) 36 40 44 48 52 56 12345 39.0 39.4 40.6 41.7 42.2 49.7 49.7 49.7 50.3 51.3 52.4 52.9 54.0 52.4 55.1 (b) 顺序扩展 k 36 40 44 48 52 56 12345 39.0 37.4 38.5 40.1 40.6 49.7 49.7 51.9 50.8 51.9 53.5 52.4 54.0 51.9 54.5
图 4 | 在 WebArena-Shopping 子集上,MATTS 在 REASONINGBANK 上的扩展因子 k 的效应。我们比较 (a) 并行和 (b) 顺序测试时扩展。

并行扩展和顺序扩展都提升了性能。 增加k通常会提高成功率,这证实了分配更多推理时计算的好处。通过MATTS,并行扩展从49.7(k=1)增长到55.1(k=5),而顺序扩展从49.7上升到54.5。对于无记忆的MATTS基线,增益更小且不那么一致(例如,并行扩展在39.0和42.2之间波动,顺序扩展在37.4和40.6之间)。相比之下,MATTS在这两种扩展策略中都能实现更强劲、更稳定的改进,突显了其在使扩展更有效方面的作用。

图4及第一段结果解读:

核心结论:“深度学习法”(MATTS) 确实有效,但必须和“超级大脑”(REASONINGBANK) 配合使用才能发挥最大威力。

图4分析:这张图展示了随着“努力程度”(扩展因子k)的增加,不同学习策略的成功率变化情况。

文字解读:作者从图表中得出了第一个观察:只要肯投入,成绩就能提高。无论是并行扩展(图a,多找几个人一起想办法)还是顺序扩展(图b,自己反复琢磨),加大投入(增加k)都能提升成功率。但关键在于提升的幅度和稳定性。没有记忆的AI(灰色柱子)进步非常有限,说明光努力不动脑是没用的。而有了REASONINGBANK加持的MATTS(紫色实线)则能将每一分努力都转化为实实在在的性能提升,表现出强劲而稳定的成长性。

MATTS始终优于朴素TTS。 通过REASONINGBANK,MATTS始终超过了无聚合的MATTS(朴素TTS),表明具有记忆感知的协调和聚合是重要的。具体来说,在k=5时,MATTS在并行扩展中达到55.1,而朴素TTS为52.4;在顺序扩展中为54.5,而朴-素TTS为51.9。这些改进突出表明,记忆感知的扩展通过从多个轨迹或交互步骤中综合见解以利用对比信号,有效地引导智能体走向更有希望的解决方案。

第二段结果解读:

核心结论:“聪明地学”远胜于“机械地学”。

通过比较图中的紫色实线(MATTS)和蓝色虚线(朴素TTS),可以发现紫色实线始终在蓝色虚线的上方。这意味着,即使在相同的“努力程度”(相同的k值)下,MATTS的性能也总是更好。这充分证明了MATTS的核心优势——记忆感知的协调和聚合——是至关重要的。换句话说,MATTS的“对比总结”这一步,起到了画龙点睛的作用。它能够从各种好坏不一的尝试中,提炼出最本质的规律,从而更有效地指导AI的后续行为,让AI的探索更有方向性,而不是盲目试错。

顺序扩展显示出短期优势,但并行扩展在更大规模上对REASONINGBANK占主导地位。 对于像REASONINGBANK这样更强的记忆机制,顺序精炼在小的k值下带来更高的增益,但其好处很快就饱和了——一旦模型要么成功,要么决定性地失败,进一步的精炼增加的新见解就很少了。相比之下,并行扩展继续提供多样化的展开,使模型能够批判和改进其自身的生成,使其在更大的k值下超过顺序扩展(例如,在k=5时为55.1对54.5)。相比之下,对于没有配备记忆模块的朴素TTS,随着扩展的进行,顺序扩展产生的益处很少甚至没有,而并行扩展始终占主导地位。

第三段结果解读:

核心结论:不同的学习策略,适用于不同的阶段。

这里作者对两种MATTS策略(并行和顺序)进行了更细致的比较,得出了一个有趣的发现:

这个结论对于拥有强大记忆系统(如REASONINGBANK)的AI尤为重要。而对于没有记忆的AI来说,反正也记不住教训,自己琢磨半天也没用,所以“集思广益”始终是更好的选择。

4.4. 记忆与测试时扩展的协同作用

虽然前一节确立了MATTS的整体有效性,但在本节中,我们强调记忆和TTS之间的协同作用。图5展示了在WebArena-Shopping子集上使用并行扩展因子k=3的MATTS快照,我们报告了Pass@1(随机选择的轨迹)和Best-of-3(BoN)。此设置使我们能够检查记忆质量和扩展有效性之间的双向互动。

协同作用实验设置解读:

这一节的目标是证明“超级大脑”(记忆)和“深度学习法”(TTS)之间存在1+1>2的协同效应。作者设计了一个巧妙的实验来说明这一点。

实验设定为并行扩展,努力程度 k=3,即AI会对每个任务生成3个不同的解决方案。然后,他们用两个指标来评估结果:

  1. Best-of-3 (BoN): “三局两胜”或“矮子里面拔将军”。从3个方案中选出最好的一个作为最终结果。这个指标直接反映了TTS的上限——在多次尝试后,AI最高能达到什么水平。
  2. Pass@1: “随堂测验”。从3个方案中随机抽取一个来评估。这个指标反映了AI的平均水平,因为好的记忆系统应该能让AI的每一次尝试都更靠谱,而不是只依赖于偶尔的超常发挥。

通过观察这两个指标在不同记忆系统下的表现,作者试图揭示记忆和TTS是如何互相成就的。

成功率 (SR) 35 40 45 50 55 无记忆 Synapse AWM ReasoningBank 38.5 40.6 40.1 42.8 41.2 45.5 50.8 52.4 39.0 40.6 44.4 49.7 无扩展 Pass@1 Best-of-3
图 5 | 在 WebArena-Shopping 子集上,使用不同记忆机制的 MATTS 快照(k=3)。我们计算所有 3 个轨迹的 BoN,以及一个随机选择轨迹的 Pass@1。

更好的记忆能带来更强的测试时扩展性能。 为了了解记忆如何提高扩展的有效性,我们关注BoN结果,它直接衡量了智能体在多个展开中呈现最佳结果的能力。如图5中的蓝色条形图所示,扩展的好处关键取决于底层的记忆。没有记忆时,扩展带来的改进微乎其微,BoN仅从39.0上升到40.6。像Synapse和AWM这样较弱的记忆机制提供了适度的增益,分别达到42.8和45.5。相比之下,带有REASONINGBANK的MATTS提供了最强的好处,BoN从49.7攀升至52.4。这些结果表明,高质量的记忆将扩展引向更有希望的展开,确保额外的轨迹不会被浪费,而是转化为更高的成功率。

图5及第一段结果解读:

核心结论:“好记性”能让“勤奋”更有价值。

图5分析 (看蓝条和虚线)

我们发现,记忆系统越强,这个提升差距就越大。对于“无记忆”的AI,提升只有可怜的1.6个百分点(从39.0到40.6)。而对于拥有ReasoningBank的AI,提升达到了2.7个百分点(从49.7到52.4)。

文字解读:作者的第一个结论是:记忆质量决定了TTS的上限。一个好的记忆系统,就像一个好老师,能给AI的多次尝试(TTS)指明更有希望的方向。这样,AI的“努力”就不会是盲目的,而是集中在有潜力的解法上,最终自然能取得更好的成绩。没有好记性,AI的多次尝试就像无头苍蝇乱撞,效果当然大打折扣。

扩展能带来更好的记忆策划。 为了公平地评估扩展如何反馈到记忆中,我们报告了Pass@1,它衡量了记忆策划后轨迹的平均质量,并允许与无扩展情况直接比较。这一趋势如粉色条形图所示,并且非常惊人:对于较弱的记忆,扩展实际上降低了性能,其中Synapse从40.6下降到40.1,AWM从44.4下降到41.2。这些下降表明,没有强有力的指导,扩展生成的额外展开引入的是噪音而非有用的信号。相比之下,REASONINGBANK是唯一受益的方法:Pass@1从49.7上升到50.8,表明高质量的记忆可以利用扩展的多样性来提取建设性的对比信号。这种不对称性凸显了仅有扩展是不够的;只有与好的记忆机制配对,它才能有助于策划更有效的记忆,从而闭合良性循环。

图5及第二段结果解读:

核心结论:“勤奋”也能反过来促进“好记性”的形成,但前提是你得会总结。

图5分析 (看粉条和虚线)

这里出现了惊人的一幕!对于Synapse和AWM这两个较弱的记忆系统,粉条的高度居然低于白点的高度!这意味着,在“努力”(TTS)之后,它们的平均水平反而下降了。这说明它们的总结能力太差,大量的尝试(TTS)对它们来说不是宝贵经验,反而是“噪音干扰”,让它们变得更“糊涂”了。

只有REASONINGBANK,它的粉条(50.8)高于白点(49.7),实现了平均水平的提升。这证明了REASONINGBANK强大的“总结提炼”能力。它能够从TTS产生的多样化尝试中,去粗取精,通过对比分析,总结出真正有价值的规律,从而提升了自己下一次出手时的平均水平。

文字解读:作者的第二个结论,也是协同效应的关键所在:TTS和记忆是相辅相成的,缺一不可。没有好的记忆系统,TTS的“大力”只会是“蛮力”,甚至会起反作用。而有了像REASONINGBANK这样强大的记忆系统,TTS的“大力”才能变成“巧力”,它产生的丰富经验可以被高效地转化为更高质量的记忆。这就形成了一个“越努力 -> 总结得越好 -> 下次出手越准 -> 努力得越有方向”的完美正向循环。

5. 分析

我们通过三个方面来分析REASONINGBANK在整体基准性能之外的表现:结合失败轨迹,考察涌现策略,以及评估在成功和失败案例中的效率。更多分析见附录C。

测试时学习时间线

程序性/执行策略

...主动寻找并点击“下一页”、“页面X”或“加载更多”链接。

原子级自我反思

...关键是先重新检查元素当前的标识符...

进化的自适应检查

在扫描前,总是利用任何可用的搜索或筛选功能,确保报告前的完整性...

泛化的复杂/有效策略

定期将当前视图与任务要求进行交叉引用有助于防止错误...如果当前数据与预期不符(例如,内容不正确或不相关),则重新评估可用选项,如搜索筛选器、备用部分...

图 6 | 一个案例研究,通过记忆项说明REASONINGBANK中的涌现行为。

5.1. REASONINGBANK的涌现行为

我们发现REASONINGBANK中的策略不是扁平或单一的,而是在时间上不断演变,展现出类似于强化学习学习动态的涌现行为。如图6所示,REASONINGBANK中的一个记忆项在测试时学习过程中可能逐渐演变。它从面向执行或程序性的策略开始(例如,找到导航链接),其中智能体遵循直接的行动规则。然后它进展到适应性的自我反思,例如重新验证标识符以减少简单错误。随着更多经验的积累,同一个记忆项演变为适应性检查,其中智能体系统地利用可用的搜索或筛选器以确保结果的完整性。最终,它最终成熟为组合策略,例如交叉引用任务要求和重新评估选项。这种演变凸显了REASONINGBANK如何使智能体在测试时学习期间从低级行动到高级推理来提炼策略。

图6及涌现行为解读:

核心结论:REASONINGBANK让AI学会了“进化”,从“新手”成长为“专家”。

图6分析:这张图生动地展示了一个“智慧笔记”(记忆项)随着AI学习的深入,是如何不断升级和进化的。这个过程就像一个人的认知成长:

  1. 阶段一:程序性策略 (只会照章办事): 最开始,AI学到的是最简单的、机械性的操作,比如“要翻页,就去找‘下一页’按钮然后点击”。这是最低级的策略。
  2. 阶段二:原子级自我反思 (开始会检查): 随着经验积累,AI学到了一点教训,开始进行简单的自我反思,比如“在操作一个东西之前,最好先确认一下它的ID没变,免得点错了”。这说明它开始有意识地避免低级错误。
  3. 阶段三:进化的自适应检查 (学会利用工具): 接着,AI的策略变得更主动、更聪明。它学会了“在埋头苦干前,先看看有没有现成的工具(比如搜索、筛选功能)可以用,这样可以保证信息完整,事半功倍”。
  4. 阶段四:泛化的复杂策略 (掌握了思想方法): 最后,AI的策略升华到了“方法论”的层面。它学会了“要时刻对照任务要求来检查当前进展,防止跑偏(交叉引用)”,“如果发现情况不对,要懂得灵活变通,重新评估所有可能的方案(重新评估选项)”。这已经是非常高级、非常复杂的专家级思维了。

文字解读:作者指出,REASONINGBANK里的“智慧”不是一成不变的,而是会“涌现”和“进化”的。这种“涌现行为”是衡量一个系统是否真正智能的关键标志。这表明REASONINGBANK不仅仅是一个被动的记事本,更是一个能促进AI认知能力从“低级操作”向“高级推理”跃迁的催化剂。

5.2. 结合失败轨迹

成功率 35 38 41 44 47 50 Synapse AWM ReasoningBank 无记忆: 39.0 40.6 41.7 44.4 42.2 46.5 49.7

仅成功

包含失败

图 7 | 结合失败轨迹进行记忆归纳的消融实验结果。

图7比较了在WebArena-Shopping上使用Gemini-1.5-flash的不同记忆设计,在两种设置下:仅使用成功轨迹与同时利用成功和失败轨迹。像Synapse和AWM这样的基线方法仅从成功轨迹中构建记忆,因此无法从失败中获益。结果,当添加失败时,它们的性能受限甚至下降:Synapse仅从40.6(仅成功)增加到41.7(有失败),而AWM从44.4下降到42.2。相比之下,REASONINGBANK的设计使得能够从成功和失败中提炼推理模式,在仅成功的轨迹上达到46.5,并且在包含失败时进一步提高到49.7。这突出表明,与基线不同,REASONINGBANK可以将失败转化为建设性信号而非噪音,从而实现更稳健的泛化。

图7及失败轨迹解读:

核心结论:失败是成功之母,但前提是你得会总结失败。

这是一个“消融实验”,目的是验证“从失败中学习”这个功能到底有多重要。

图7分析

我们观察到三种截然不同的情况:
  1. Synapse: 学习了失败经验后,性能有微弱提升(从40.6到41.7)。说明它能从失败中学到一点点东西,但能力有限。
  2. AWM: 学习了失败经验后,性能反而下降了(从44.4到42.2)!这说明它的学习方法有问题,失败对它来说就是“噪音”,学了还不如不学,把自己搞糊涂了。
  3. REASONINGBANK: 学习了失败经验后,性能大幅提升(从46.5飙升到49.7)。这完美地证明了它的设计是多么优秀。

文字解读:作者的结论非常清晰。对于那些设计不佳的记忆系统(如AWM),失败经验就是毒药。而对于REASONINGBANK来说,失败经验是宝贵的财富。它拥有独特的能力,能将失败转化为有建设性的、可以指导未来的“警示牌”(“建设性信号”),而不是无用的“噪音”。正是这种化“失败”为“成功之母”的能力,使得REASONINGBANK能够达到其他方法无法企及的高度,实现更强大的泛化能力。

REASONINGBANK 论文深度解读 (11-15页)
表 3 | Mind2Web基准测试上跨任务、跨网站和跨领域泛化测试的结果。EA (↑) 是元素准确率的缩写,$AF_{1}$ (↑) 是动作$F_{1}$分数的缩写,SSR (↑) 是步骤成功率的缩写。SR (↑) 是任务级成功率,衡量是否所有步骤都正确。
模型 跨任务 (252) 跨网站 (177) 跨领域 (912)
EA$AF_{1}$SSRSR EA$AF_{1}$SSRSR EA$AF_{1}$SSRSR
Gemini-1.5-flash
无记忆 46.059.140.33.3 39.845.131.71.7 35.837.931.91.0
Synapse 47.059.541.23.5 40.346.032.11.9 36.338.532.41.1
AWM 46.356.141.03.5 39.142.231.72.1 33.336.530.10.7
REASONINGBANK 52.160.444.94.8 44.352.633.92.3 40.641.336.61.6
Gemini-1.5-pro
无记忆 49.360.244.43.5 41.249.834.83.4 37.937.735.01.4
Synapse 50.161.044.73.6 41.851.235.03.2 38.539.835.61.5
AWM 48.661.244.43.7 41.947.934.82.3 37.338.134.41.2
REASONINGBANK 53.662.745.65.1 46.154.836.93.8 42.845.238.11.7

表3 解读:

这张表展示了在Mind2Web这个更注重“举一反三”能力的测试集上的结果。测试难度从左到右递增:跨任务 < 跨网站 < 跨领域。指标很多,但核心思想是分数越高越好。

核心结论:REASONINGBANK 的泛化能力最强,尤其是在最困难的挑战中。

从数据中可以清晰地看到,无论在哪种难度的测试中,也无论使用哪种AI大脑,REASONINGBANK(加粗行)的各项分数几乎总是最高的。特别是在最右侧、难度最大的“跨领域”测试中,虽然所有方法的绝对分数都下降了(因为太难了),但REASONINGBANK的优势依然非常明显。例如,在使用Gemini-1.5-pro时,它的元素准确率(EA)达到了42.8,远高于“无记忆”的37.9和其他方法。

这强有力地证明了我们在上一部分得出的结论:REASONINGBANK学习到的是可迁移的、底层的智慧,而不是特定场景下的“死套路”。因此,当面对一个全新的、从未见过的领域时,它依然能够运用这些核心智慧来解决问题,展现出强大的适应性和泛化能力。

在SWE-Bench-Verified上的平均步骤也更少,分别节省了2.8步和1.3步。这表明REASONINGBANK通过重用和提炼推理知识,使智能体能够更有效地解决任务,从而避免了不必要或冗余的探索。

解读:

这段话是上一页内容的延续,重申了REASONINGBANK在效率上的优势。通过回顾表2的编程任务数据,作者指出,REASONINGBANK不仅比“无记忆”的AI快(少用2.8步),甚至比另一个记忆方法Synapse也快(少用1.3步)。这再次证明了,高质量的记忆能够指导AI直奔主题,避免走弯路,从而在解决复杂问题时既准又快。

表 4 | 在四个WebArena领域上,成功和失败测试实例的平均步数。与朴素基线相比,REASONINGBANK持续减少了步数,在成功实例上的减少尤为显著。
模型 购物 管理 Gitlab Reddit
失败成功 失败成功 失败成功 失败成功
无记忆 8.76.8 10.48.4 15.78.6 7.66.1
REASONINGBANK 7.3 ↓1.44.7 ↓2.1 9.5 ↓0.97.0 ↓1.4 15.5 ↓0.27.6 ↓1.0 6.8 ↓0.85.0 ↓1.1

5.3. 效率研究

虽然表1中的总步数提供了模型效率的总体视图,但它并未区分减少是来自成功的轨迹还是失败的轨迹。为了获得更深入的了解,我们进一步将分析分为成功和失败的测试案例,这使我们能够理解步数减少的来源:一个理想的系统应该在走在正确的轨道上时减少不必要的探索,而不仅仅是缩短失败的尝试。结果如表4所示。我们发现,与基线相比,REASONINGBANK在所有领域都持续减少了步数。更重要的是,在成功的案例中,减少尤为明显,比失败案例少多达2.1步(相对减少26.9%)。这表明REASONINGBANK主要通过加强其遵循有效推理路径的能力,帮助智能体以更少的交互达到解决方案,而不仅仅是截断失败的轨迹,这突显了记忆在指导有目的的决策和提高实践效率方面的作用。

表4及效率研究解读:

核心结论:REASONINGBANK的效率提升是“高质量”的,它让AI在“做对”时更快,而不是在“做错”时更快放弃。

这是一个非常深刻的分析。单纯看总的平均步数减少,可能有两种情况:一种是AI变聪明了,很快找到了正确答案;另一种是AI变“懦弱”了,遇到困难很快就放弃了,所以失败案例的步数变得很短。显然,我们想要的是前者。

表4分析:这张表将“无记忆”和REASONINGBANK的平均步数,按“失败案例”和“成功案例”进行了拆分。数据显示:

文字解读:这个发现意义重大。它说明REASONINGBANK的效率提升,主要来源于它帮助AI更快地走上通往成功的正确道路,而不是让AI更快地放弃错误的尝试。这证明了它的记忆库提供了真正有价值的、建设性的指导,让AI的探索变得更有目的性、更高效。它不是简单地让AI“少做无用功”,而是让它“多做有用功,快做有用功”,这才是真正意义上的智能和效率的提升。

6. 结论

我们介绍了REASONINGBANK,一个从成功和失败中提炼策略级推理信号,并将其整合到测试时扩展(MATTS)中的记忆框架。广泛的实验表明,REASONINGBANK在提高性能的同时,持续减少了冗余探索。进一步的结果揭示了记忆和扩展之间的强大协同作用:REASONINGBANK引导扩展走向更有希望的展开,而多样化的展开则以有价值的对比信号丰富了记忆。我们还提供了对单个组件和涌现行为的分析。我们的发现为构建自适应和终身学习的智能体提供了一条实用的途径,附录D和E中还讨论了未来的方向和局限性。

结论解读:

这里对整篇论文的工作进行了总结和升华。

  1. 总结核心贡献:我们提出了REASONINGBANK(一个能从成败中学习的“超级大脑”)和MATTS(一个能指导AI“深度学习”的方法)。
  2. 重申实验结果:实验证明,我们的方法能让AI做得更好、更快。
  3. 强调核心发现:我们揭示了“记忆”和“扩展探索”之间存在1+1>2的协同效应——好记性让探索更高效,多探索能形成更好的记忆。
  4. 点睛之笔:我们还观察到了AI的“智慧涌现”现象,证明了这种学习方式的先进性。
  5. 展望未来:作者认为他们的研究为实现真正的、能够持续学习、终身进化的通用人工智能(AGI)指明了一条切实可行的道路。

总而言之,这篇论文不仅仅是提出了一种具体的技术,更是为如何让AI学会“学习”和“成长”这一根本性问题,提供了一个全新的、被证明非常有效的范式。

7. 致谢

我们感谢Jiao Sun、Jing Nathan Yan以及来自谷歌云人工智能研究院的成员们在论文准备过程中提出的宝贵反馈。

致谢解读:

这是学术论文的标准组成部分,作者在这里对在研究和写作过程中给予他们帮助的同事和同行表示感谢。这体现了科学研究中的合作精神和学术礼仪。

参考文献

Anthropic. Claude 3.5 sonnet and claude code, 2025. URL https://www.anthropic.com/news/claude-3-5-sonnet.

S. Chen, S. Lin, X. Gu, Y. Shi, H. Lian, L. Yun, D. Chen, W. Sun, L. Cao, and Q. Wang. Swe-exp: Experience-driven software issue resolution. ArXiv preprint, abs/2507.23361, 2025. URL https://arxiv.org/abs/2507.23361.

T. Chen, S. Kornblith, M. Norouzi, and G. E. Hinton. A simple framework for contrastive learning of visual representations. In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, volume 119 of Proceedings of Machine Learning Research, pages 1597-1607. PMLR, 2020. URL http://proceedings.mlr.press/v119/chen20j.html.

P. Chhikara, D. Khant, S. Aryan, T. Singh, and D. Yadav. Mem0: Building production-ready ai agents with scalable long-term memory. ArXiv preprint, abs/2504.19413, 2025. URL https://arxiv.org/abs/2504.19413.

Y. Chow, G. Tennenholtz, I. Gur, V. Zhuang, B. Dai, A. Kumar, R. Agarwal, S. Thiagarajan, C. Boutilier, and A. Faust. Inference-aware fine-tuning for best-of-n sampling in large language models. In The Thirteenth International Conference on Learning Representations, 2025. URL https://openreview.net/forum?id=77gQUdQhE7.

G. Comanici, E. Bieber, M. Schaekermann, I. Pasupat, N. Sachdeva, I. Dhillon, M. Blistein, O. Ram, D. Zhang, E. Rosen, et al. Gemini 1.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities. ArXiv preprint, abs/2507.06261, 2025. URL https://arxiv.org/abs/2507.06261.

T. L. S. de Chezelles, M. Gasse, A. Lacoste, M. Caccia, A. Drouin, L. Boisvert, M. Thakkar, T. Marty, R. Assouel, S. O. Shayegan, L. K. Jang, X. H. Lù, O. Yoran, D. Kong, F. F. Xu, S. Reddy, G. Neubig, Q. Cappart, R. Salakhutdinov, and N. Chapados. The browsergym ecosystem for web agent research. Transactions on Machine Learning Research, 2025. ISSN 2835-8856. URL https://openreview.net/forum?id=5298fKGmv3. Expert Certification.

X. Deng, Y. Gu, B. Zheng, S. Chen, S. Stevens, B. Wang, H. Sun, and Y. Su. Mind2web: Towards a generalist agent for the web. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, editors, Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10-16, 2023, 2023. URL http://papers.nips.cc/paper_files/paper/2023/hash/5950bf290a1570ea401bf98882128160-Abstract-Datasets_and_Benchmarks.html.

R. Fang, Y. Liang, X. Wang, J. Wu, S. Qiao, P. Xie, F. Huang, H. Chen, and N. Zhang. Memp: Exploring agent procedural memory. ArXiv preprint, abs/2508.06433, 2025. URL https://arxiv.org/abs/2508.06433.

Z. Fountas, M. Benfeghoul, A. Oomerjee, F. Christopoulou, G. Lampouras, H. B. Ammar, and J. Wang. Human-inspired episodic memory for infinite context LLMs. In The Thirteenth International Conference on Learning Representations, 2025. URL https://openreview.net/forum?id=BI2int5SAC.

H.-a. Gao, J. Geng, W. Hua, M. Hu, X. Juan, H. Liu, S. Liu, J. Qiu, X. Qi, Y. Wu, et al. A survey of self-evolving agents: On path to artificial super intelligence. ArXiv preprint, abs/2507.21046, 2025. URL https://arxiv.org/abs/2507.21046.

J. Gu, X. Jiang, Z. Shi, H. Tan, X. Zhai, C. Xu, W. Li, Y. Shen, S. Ma, H. Liu, et al. A survey on Ilm-as-a-judge. ArXiv preprint, abs/2411.15594, 2024. URL https://arxiv.org/abs/2411.15594.

I. Gur, H. Furuta, A. V. Huang, M. Safdari, Y. Matsuo, D. Eck, and A. Faust. A real-world webagent with planning, long context understanding, and program synthesis. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net, 2024. URL https://openreview.net/forum?id=9JQtrumvg8.

M. Hu, T. Chen, Q. Chen, Y. Mu, W. Shao, and P. Luo. HiAgent: Hierarchical working memory management for solving long-horizon agent tasks with large language model. In W. Che, J. Nabende, E. Shutova, and M. T. Pilehvar, editors, Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 32779-32798, Vienna, Austria, 2025a. Association for Computational Linguistics. ISBN 979-8-89176-251-0. doi: 10.18653/v1/2025.acl-long.1575. URL https://aclanthology.org/2025.acl-long.1575/.

Y. Hu, Y. Wang, and J. McAuley. Evaluating memory in LLM agents via incremental multi-turn interactions. In ICML 2025 Workshop on Long-Context Foundation Models, 2025b. URL https://openreview.net/forum?id=ZgQ0t3zYTQ.

C. E. Jimenez, J. Yang, A. Wettig, S. Yao, K. Pei, O. Press, and K. R. Narasimhan. Swe-bench: Can language models resolve real-world github issues? In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net, 2024. URL https://openreview.net/forum?id=VTF8yNQM66.

C. Jin, H. Peng, Q. Zhang, Y. Tang, D. N. Metaxas, and T. Che. Two heads are better than one: Test-time scaling of multi-agent collaborative reasoning. ArXiv preprint, abs/2504.09772, 2025. URL https://arxiv.org/abs/2504.09772.

T. Kagaya, T. J. Yuan, Y. Lou, J. Karlekar, S. Pranata, A. Kinose, K. Oguri, F. Wick, and Y. You. Rap: Retrieval-augmented planning with contextual memory for multimodal llm agents. ArXiv preprint, abs/2402.03610, 2024. URL https://arxiv.org/abs/2402.03610.

Y. Kong, D. Shi, G. Yang, C. Huang, X. Li, S. Jin, et al. Mapagent: Trajectory-constructed memory-augmented planning for mobile task automation. ArXiv preprint, abs/2507.21953, 2025. URL https://arxiv.org/abs/2507.21953.

J. Lee, F. Chen, S. Dua, D. Cer, M. Shanbhogue, I. Naim, G. H. Ábrego, Z. Li, K. Chen, H. S. Vera, et al. Gemini embedding: Generalizable embeddings from gemini. ArXiv preprint, abs/2503.07891, 2025. URL https://arxiv.org/abs/2503.07891.

D. Li, S. Cao, C. Cao, X. Li, S. Tan, K. Keutzer, J. Xing, J. E. Gonzalez, and I. Stoica. S*: Test time scaling for code generation. ArXiv preprint, abs/2502.14382, 2025a. URL https://arxiv.org/abs/2502.14382.

Z. Li, S. Song, H. Wang, S. Niu, D. Chen, J. Yang, C. Xi, H. Lai, J. Zhao, Y. Wang, et al. Memos: An operating system for memory-augmented generation (mag) in large language models. ArXiv preprint, abs/2505.22101, 2025b. URL https://arxiv.org/abs/2505.22101.

X. Liang, Y. He, Y. Xia, X. Song, J. Wang, M. Tao, L. Sun, X. Yuan, J. Su, K. Li, et al. Self-evolving agents with reflective and memory-augmented abilities. ArXiv preprint, abs/2409.00872, 2024. URL https://arxiv.org/abs/2409.00872.

B. Liu, X. Li, J. Zhang, J. Wang, T. He, S. Hong, H. Liu, S. Zhang, K. Song, K. Zhu, et al. Advances and challenges in foundation agents: From brain-inspired intelligence to evolutionary, collaborative, and safe systems. ArXiv preprint, abs/2504.01990, 2025a. URL https://arxiv.org/abs/2504.01990.

Y. Liu, C. Si, K. R. Narasimhan, and S. Yao. Contextual experience replay for self-improvement of language agents. In W. Che, J. Nabende, E. Shutova, and M. T. Pilehvar, editors, Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 14179-14198, Vienna, Austria, 2025b. Association for Computational Linguistics. ISBN 979-8-89176-251-0. doi: 10.18653/v1/2025.acl-long.694. URL https://aclanthology.org/2025.acl-long.694/.

E. Lumer, A. Gulati, V. K. Subbiah, P. H. Basavaraju, and J. A. Burke. Memtool: Optimizing short-term memory management for dynamic tool calling in llm agent multi-turn conversations. ArXiv preprint, abs/2507.21428, 2025. URL https://arxiv.org/abs/2507.21428.

A. Madaan, N. Tandon, P. Gupta, S. Hallinan, L. Gao, S. Wiegreffe, U. Alon, N. Dziri, S. Prabhumoye, Y. Yang, S. Gupta, B. P. Majumder, K. Hermann, S. Welleck, A. Yazdanbakhsh, and P. Clark. Self-refine: Iterative refinement with self-feedback. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, editors, Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 1016, 2023, 2023. URL http://papers.nips.cc/paper_files/paper/2023/hash/91edff07232fb1b55a505a9e9f6c0ff3-Abstract-Conference.html.

A. Maharana, D.-H. Lee, S. Tulyakov, M. Bansal, F. Barbieri, and Y. Fang. Evaluating very long-term conversational memory of LLM agents. In L.-W. Ku, A. Martins, and V. Srikumar, editors, Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 13851-13870, Bangkok, Thailand, 2024. Association for Computational Linguistics. doi: 10.18653/v1/2024.acl-long.747. URL https://aclanthology.org/2024.acl-long.7

A. Miyai, Z. Zhao, K. Egashira, A. Sato, T. Sunada, S. Onohara, H. Yamanishi, M. Toyooka, K. Nishina, R. Maeda, et al. Webchorearena: Evaluating web browsing agents on realistic tedious web tasks. ArXiv preprint, abs/2506.01952, 2025. URL https://arxiv.org/abs/2506.01952.

N. Muennighoff, Z. Yang, W. Shi, X. L. Li, L. Fei-Fei, H. Hajishirzi, L. Zettlemoyer, P. Liang, E. Candès, and T. Hashimoto. s1: Simple test-time scaling. ArXiv preprint, abs/2501.19393, 2025. URL https://arxiv.org/abs/2501.19393.

C. Packer, V. Fang, S. Patil, K. Lin, S. Wooders, and J. Gonzalez. Memgpt: Towards llms as operating systems. 2023.

J. Pan, Y. Zhang, N. Tomlin, Y. Zhou, S. Levine, and A. Suhr. Autonomous evaluation and refinement of digital agents. In First Conference on Language Modeling, 2024. URL https://openreview.net/forum?id=NPAQ6FKSmK.

C. Qian, S. Liang, Y. Qin, Y. Ye, X. Cong, Y. Lin, Y. Wu, Z. Liu, and M. Sun. Investigate-consolidate-exploit: A general strategy for inter-task agent self-evolution. ArXiv preprint, abs/2401.13996, 2024. URL https://arxiv.org/abs/2401.13996.

A. Setlur, N. Rajaraman, S. Levine, and A. Kumar. Scaling test-time compute without verification or RL is suboptimal. In Forty-second International Conference on Machine Learning, 2025. URL https://openreview.net/forum?id=beeNgQEfe2.

R. Shao, R. Qiao, V. Kishore, N. Muennighoff, X. V. Lin, D. Rus, B. K. H. Low, S. Min, W. tau Yih, P. W. Koh, and L. Zettlemoyer. ReasonIR: Training retrievers for reasoning tasks. In Second Conference on Language Modeling, 2025. URL https://openreview.net/forum?id=kkBCNLMbGj.

J. Shen, H. Bai, L. Zhang, Y. Zhou, A. Setlur, S. Tong, D. Caples, N. Jiang, T. Zhang, A. Talwalkar, et al. Thinking vs. doing: Agents that reason by scaling test-time interaction. ArXiv preprint, abs/2506.07976, 2025. URL https://arxiv.org/abs/2506.07976.

C. V. Snell, J. Lee, K. Xu, and A. Kumar. Scaling LLM test-time compute optimally can be more effective than scaling parameters for reasoning. In The Thirteenth International Conference on Learning Representations, 2025. URL https://openreview.net/forum?id=4FWAwZtd2n.