REASONINGBANK 论文深度解读 (1-5页)

作者: Siru Ouyang¹, Jun Yan², I-Hung Hsu², Yanfei Chen², Ke Jiang², Zifeng Wang², Rujun Han², Long T. Le², Samira Daruki², Xiangru Tang³, Vishy Tirumalashetty², George Lee², Mahsan Rofouei, Hangfei Lin¹, Jiawei Han¹, Chen-Yu Lee² and Tomas Pfister²

机构: ¹伊利诺伊大学厄巴纳-香槟分校, ²谷歌云人工智能研究院, ³耶鲁大学, 谷歌云人工智能

摘要

随着大型语言模型智能体在持久性的现实世界角色中被越来越多地采用，它们自然会遇到连续不断的任务流。然而，一个关键的局限性是，它们无法从累积的交互历史中学习，这迫使它们丢弃宝贵的见解并重复过去的错误。我们提出了 REASONINGBANK，一个新颖的记忆框架，它从智能体自我判断的成功和失败经历中提炼出可泛化的推理策略。在测试时，智能体从 REASONINGBANK 中检索相关记忆以指导其交互，然后将新的学习内容整合回去，使其能够随着时间的推移变得更加强大。基于这个强大的经验学习器，我们进一步引入了记忆感知测试时扩展（MATTS），它通过扩大智能体的交互经验来加速和多样化这一学习过程。通过为每个任务分配更多的计算资源，智能体生成了丰富、多样的经验，为合成更高质量的记忆提供了丰富的对比信号。更好的记忆反过来又指导了更有效的扩展，从而在记忆和测试时扩展之间建立了强大的协同作用。在网页浏览和软件工程基准测试中，REASONINGBANK 始终优于现有的存储原始轨迹或仅存储成功任务例程的记忆机制，在效果和效率上都有所提高；MATTS 进一步放大了这些收益。这些发现将记忆驱动的经验扩展确立为一个新的扩展维度，使智能体能够通过自然出现的涌现行为进行自我进化。

摘要解读：

想象一个AI机器人，它的工作是帮你处理各种日常任务，比如上网订票、整理文件。这种机器人我们称之为“智能体”。现在的问题是，这个机器人有点“健忘”，它每次做任务都像第一次一样，完全不记得以前的经验。比如，它上次订票时走错了一个步骤，导致失败了，下次遇到同样的情况，它还是会犯同样的错误。它也记不住那些成功的巧妙方法。这就好比一个学生，做过的错题不总结，做对的题也不归纳方法，成绩自然很难提高。

为了解决这个问题，这篇论文提出了一个叫做 REASONINGBANK 的新方法，可以把它理解成给机器人装上了一个“超级大脑”或者“错题本+精华笔记”。这个“大脑”非常聪明，它会自动分析机器人每次任务的“经历”，不管是成功还是失败的，然后把其中最有价值的“经验教训”（也就是“推理策略”）总结提炼出来，存进一个“记忆库”里。比如，它会总结出“订票时，要先登录账户才能看到历史订单”这样的通用技巧，或者“如果A方法行不通，可以尝试B方法”这样的备用方案。

有了这个 REASONINGBANK，机器人每次接到新任务时，就会先去“记忆库”里翻一翻，看看有没有类似的经验可以借鉴。完成任务后，无论成败，新的经验又会被总结提炼，更新到“记忆库”里。这样一来，机器人就像一个会不断学习、总结、反思的好学生，越用越聪明，能力越来越强。

论文还提出了一个“进阶版”的学习方法，叫做 MATTS。这个方法的核心思想是“深度体验，集中学习”。它不是让机器人做更多的不同任务，而是在做一个任务时，投入更多的“精力”（计算资源），让它尝试用各种不同的方法去解决这一个问题。这就好比老师让学生用三种不同的方法解同一道数学题。通过比较这些不同方法的优劣（对比信号），机器人能总结出更深刻、更通用的解题规律，形成更高质量的“精华笔记”。这些高质量的笔记又能更好地指导它未来的行动，形成了一个“学习”和“实践”相互促进的良性循环。最终的实验结果表明，装上了“超级大脑”（REASONINGBANK）和学会了“深度学习法”（MATTS）的机器人，在上网和编程这些任务上，表现得比以前的机器人好得多，既做得对，又做得快。

1. 引言

大型语言模型（LLMs）的快速发展极大地加速了LLM智能体的开发，这些智能体对于处理需要与环境进行多步交互的复杂现实世界任务至关重要，包括网页浏览和计算机使用。随着这些智能体越来越多地被部署在持久的、长期运行的角色中，它们在其生命周期内自然会遇到连续不断的任务流。然而，它们在很大程度上未能从跨任务的累积经验中学习。通过孤立地处理每个任务，它们注定要重复过去的错误，丢弃从相关问题中获得的宝贵见解，并且缺乏使智能体系统随着时间推移变得更加强大的自我进化能力。这凸显了构建能够从过去经验中学习的记忆感知智能体系统的必要性。

近期在智能体记忆方面的努力主要集中在存储过去的交互以供重用。虽然有用，但这些方法通常仅限于利用原始轨迹或常见的、成功的例程（即工作流程、程序）。这些方法存在两个根本性的缺点。首先，它们缺乏提炼更高级别、可迁移的推理模式的能力。其次，通过过分强调成功的经验，它们使得智能体从自身失败中获得的宝贵教训在很大程度上未被探索。因此，现有的记忆设计通常仍然局限于被动的记录保存，而不是为未来的决策提供可操作的、可泛化的指导。

为了弥合这一差距，我们提出了REASONINGBANK，一个为智能体系统设计的新颖记忆框架。REASONINGBANK 从智能体自身判断的成功和失败经验中提炼和组织记忆项，无需真实标签。如图1所示，它不仅从成功中捕捉有效的策略，还从失败中捕捉关键的预防性教训，将它们抽象成一系列可操作的原则。这个过程以闭环方式运作：当面临新任务时，智能体从REASONINGBANK中检索相关记忆来指导其行动。之后，新的经验被分析、提炼并整合回REASONINGBANK中，使智能体能够持续进化和提升其战略能力。

以REASONINGBANK作为一个强大的经验学习器，我们研究经验扩展，以在记忆和测试时扩展之间建立强大的协同作用。我们不通过增加更多任务来从广度上扩展经验，而是专注于通过在每个任务上进行更多探索来从深度上扩展经验。我们在并行和顺序设置中引入了记忆感知测试时扩展（MATTS），它生成多样化的探索以提供对比信号，使REASONINGBANK能够合成更具泛化性的记忆。它在记忆和测试时扩展之间创造了一种协同作用：高质量的记忆引导扩展的探索走向更有希望的路径，而生成的丰富经验则锻造出更强大的记忆。这个正向反馈循环将记忆驱动的经验扩展定位为智能体的一个新的扩展维度。

我们在具有挑战性的网页浏览（WebArena, Mind2Web）和软件工程（SWE-Bench-Verified）基准测试上进行了广泛的实验。我们证明，我们的方法在效果（相对改进高达34.2%，图4(b)）和效率（交互步骤减少16.0%，表1）上均优于基线。具体来说，REASONINGBANK与MATTS的协同效果最佳，使其成为记忆驱动的经验扩展中不可或缺的组成部分。

我们的贡献有三方面：（1）我们提出了REASONINGBANK，一个新颖的记忆框架，它从成功和失败的经验中提炼可泛化的推理策略，超越了先前仅限于原始轨迹或仅成功例程的工作。（2）我们引入了MATTS，它在记忆和测试时扩展之间创造了强大的协同作用，将记忆驱动的经验确立为智能体的一个新的扩展维度。（3）我们通过广泛的实验证明，我们的方法不仅在效果和效率上优于现有方法，而且使智能体能够从失败中学习，并随着时间的推移发展出日益复杂的、涌现的推理策略。

2. 相关工作

LLM智能体的记忆。 记忆已成为现代智能体系统中一个必不可少的模块，用以通过利用过去的信息来增强其性能。现有的记忆系统以多种形式组织和存储信息，包括纯文本、潜在知识嵌入和结构化图。除了记忆内容，这些方法通常还涉及检索机制（例如，语义搜索）和记忆管理策略（例如，更新）。最近，随着强化学习（RL）在LLM智能体中的发展日益增长，RL也被用于智能体系统中的记忆管理。虽然大多数努力主要强调个性化和长上下文管理，但本文属于从过去经验中学习的研究路线，将其作为记忆，这是发展自我进化智能体系统的一个关键方面。与以往强调重用成功轨迹或程序化工作流程的作品不同，REASONINGBANK存储了高级策略和推理提示。通过将经验抽象为可复用的推理单元，REASONINGBANK使智能体不仅能从成功案例中泛化，还能通过从失败中学习来进行泛化，从而为测试时学习提供更丰富的指导。此外，我们是第一个探索记忆感知测试时扩展的，其中REASONINGBANK与来自大量探索轨迹的多样化信号协同工作。

智能体测试时扩展。 测试时扩展（TTS）已显示出强大的效果，并已成为端到端问题解决中广泛采用的做法，例如编码和数学推理，其中常用的方法包括N中选优、束搜索以及利用验证器。然而，其在多轮交互场景，特别是智能体任务中的应用仍未得到充分探索。现有的工作主要借鉴了从推理任务中学到的经验，并扩展了智能体系统的不同维度，包括每个动作的搜索空间、多智能体系统中的智能体数量以及与环境的交互次数。我们发现，这些努力都没有考虑到智能体记忆在扩展中的作用，即智能体可以从过去的经验中学习以指导未来的决策。我们的工作通过引入记忆感知测试时扩展（MATTS）来扩展这一研究领域。正如我们将在实证结果中展示的，记忆提供的好处超越了单纯的计算扩展，其中记忆和扩展协同工作以实现更好的性能。

3. 方法论

在本节中，我们介绍问题设置（§3.1），并提出我们所设计的REASONINGBANK（§3.2），在此基础上我们进一步开发了记忆感知测试时扩展（MATTS）（§3.3）。

3.1. 问题形式化

智能体配置。 本工作的范围集中于基于LLM的智能体。智能体策略 $\pi_{L}(\cdot|\mathcal{M},\mathcal{H})$ 由骨干LLM L参数化，并以一个记忆模块M和动作空间A为条件，简写为 $\pi_{L}$。智能体需要通过与环境交互来执行任务，这可以被看作一个顺序决策过程。形式上，环境的转移函数定义为 $\mathcal{T}(s_{t+1}|s_{t},a_{t})$，其中 $s_{t}$ 是状态，$a_{t}$ 是选择的动作。

我们专注于网页浏览和软件工程（SWE）任务。A是一组用于网页浏览的网页导航操作和用于SWE任务的bash命令，M是REASONINGBANK，并初始化为空。对于每个给定的任务，智能体生成一个 t 步的轨迹 $(o_{0:t}, a_{0:t})$，其中观测 $o_t$ 来自当前状态 $s_t$。观测是网页浏览任务中基于文本的网页可访问性树和SWE中的代码片段。智能体需要通过 $\pi_{\mathcal{L}}(o_{0:t},a_{0:t};\mathcal{M},\mathcal{H})\rightarrow a_{t+1}$ 生成一个动作 $a_{t+1} \in \mathcal{A}$。在实现中，记忆模块M贡献相关记忆作为$\pi_{L}$的附加系统指令。

测试时学习。 我们专注于测试时学习范式，其中一系列任务查询 $Q=\{q_1, q_2, ..., q_N\}$ 以流式方式到达，即每个查询被揭示并且必须在没有访问未来查询的情况下顺序完成。在这种设置中，测试期间没有可用的真实标签，因此智能体必须仅利用其自身的过去轨迹和任何自验证来持续进化，而不依赖于外部标签。这种流式设置突出了两个关键挑战：（i）如何从过去的轨迹中提取和保存有用的记忆，以及（ii）如何有效地利用这些记忆来处理未来的查询，以避免冗余地重新发现已经成功的策略或重复过去的错误。

3.2. REASONINGBANK

过去的原始轨迹（或经验），虽然全面且原始，但通常过于冗长和嘈杂，无法直接应用于当前的用户查询。如图2所示，REASONINGBANK将有用的策略和推理提示从过去的经验中提炼为结构化的记忆项，然后存储起来以备将来重用。

记忆模式。 REASONINGBANK中的记忆项被设计并从过去的经验中归纳为结构化的知识单元，它们抽象掉了低级别的执行细节，同时保留了可迁移的推理模式和策略。每个记忆项指定三个组成部分：（i）一个标题，作为总结核心策略或推理模式的简洁标识符；（ii）一段描述，提供对记忆项的简短单句摘要；以及（iii）内容，记录从过去经验中提取的提炼后的推理步骤、决策理由或操作见解。总而言之，提取出的记忆项既是人类可解释的，也是机器可用的。

REASONINGBANK与智能体的集成。 配备了REASONINGBANK的智能体可以利用一个精心策划的可迁移策略池来指导决策。这使得智能体能够回忆起有效的见解，避免先前观察到的陷阱，并更稳健地适应未见的查询。集成过程分三步进行：（i）记忆检索，（ii）记忆构建，和（iii）记忆整合，如图2所示。在记忆检索期间，智能体使用当前查询上下文查询REASONINGBANK，以使用基于嵌入的相似性搜索识别出前k个相关的经验及其对应的记忆项。检索到的项被注入到智能体的系统指令中，确保决策过程基于有用的过去经验。当当前查询任务完成时，我们将执行记忆构建以提取新的记忆项。第一步是为已完成轨迹的正确性获取代理信号：我们采用一个“以LLM为法官”的方法来标记结果为成功或失败，无需访问任何真实标签。基于这些信号，我们应用不同的提取策略：成功的经验贡献了经过验证的策略，而失败的经验则提供了反事实信号和陷阱，有助于加强防护栏。在实践中，我们为每个轨迹/经验提取多个记忆项，详见附录A.1。最后，记忆整合通过简单的加法操作将这些项合并到REASONINGBANK中，维持一个不断演变的记忆项存储库。详情在附录A.2。总之，这些步骤形成一个闭环过程：智能体利用过去的经验，从当前任务中构建新的记忆，并不断更新其记忆，从而在测试时学习场景中实现持续进化。

3.3. MATTS：记忆感知测试时扩展

REASONINGBANK使得从经验中学习能够将更多的经验转化为更大的改进。由于测试时扩展最近已成为提升LLM智能体性能的强大策略，它通过分配额外的推理时计算来生成大量的探索历史，显示出强大的潜力。REASONINGBANK与测试时扩展的直接组合如图3(a)所示，其中更多的轨迹被独立地转换为更多的记忆项。然而，这种朴素的形式是次优的，因为它没有利用在同一问题上进行冗余探索时产生的内在对比信号，这限制了测试时扩展带来的性能优势。为了解决这个问题，我们提出了记忆感知测试时扩展（MATTS），一种将测试时扩展与REASONINGBANK新颖集成的方法。与朴素方法不同，MATTS刻意从扩展过程中生成的大量成功和失败轨迹中学习，以进行更有效的记忆策划。我们为MATTS设计了两种互补的实例化：并行扩展和顺序扩展，如图3(b)和3(c)所示，详细实现在附录A.3中。

并行扩展。 在并行设置中，我们在检索到的记忆项的指导下，为同一个查询生成多个轨迹。通过在不同轨迹之间进行比较和对比（自对比），智能体可以识别出一致的推理模式，同时过滤掉虚假的解决方案。这个过程使得从单个查询的多次尝试中进行更可靠的记忆策划成为可能，从而促进了多样化的探索。

顺序扩展。 我们遵循自精炼的原则，在初始完成后，在单个轨迹内迭代地精炼其推理。在此过程中，自精炼中产生的中间笔记也被用作记忆的有价值信号，因为它们捕捉了可能不会出现在最终解决方案中的推理尝试、修正和见解。

他们捕捉推理尝试、修正以及可能不会出现在最终解决方案中的见解。

我们将扩展因子定义为k，表示并行扩展的轨迹数量和顺序扩展的精炼步骤数。配备了REASONINGBANK，并行和顺序策略都变得具有记忆感知能力，确保在测试时分配的额外计算能够转化为更具可迁移性和更高质量的未来任务记忆。

4. 实验

4.1. 设置

遵循现有工作，我们在WebArena和Mind2Web上进行实验。WebArena的特点是跨多个不同领域的一般性网页导航，而Mind2Web则测试智能体在多种操作和环境中的泛化能力。我们还在SWE-Bench-Verified上进行实验，用于存储库级别的问题解决。为了进行比较，我们考虑了从无记忆智能体（No Memory）到基于轨迹的记忆（Synapse）和基于工作流程的记忆（AWM）的基线。我们的智能体基于在BrowserGym环境（用于网页浏览）和纯bash环境（用于SWE）中运行的Gemini-1.5和Claude-3.5模型构建，遵循ReAct风格和默认解码配置。评估重点是效果（成功率）和效率（平均交互步骤），具体指标因每个数据集而异。数据集、基线、实现和评估协议的完整描述见附录B。

4.2. REASONINGBANK的结果

表1、2、3总结了REASONINGBANK在WebArena、Mind2Web和SWE-Bench-Verified上的主要评估结果。我们有以下观察。

表 1 | REASONINGBANK 在 WebArena 基准测试上的实验结果。报告了 5 个子集上 3 种不同骨干 LLM 的成功率 (SR ↑) 和步骤数 (Step ↓)。
模型	购物 (187)	管理 (182)	Gitlab (180)	Reddit (106)	综合 (29)	总体 (684)
Gemini-1.5-flash
无记忆	39.0 / 8.2	44.5 / 9.5	13.3 / 33.9	55.7 / 6.7	10.3 / 10.0	40.5 / 9.7
Synapse	40.6 / 7.0	45.1 / 9.1	35.6 / 13.0	59.4 / 6.5	10.3 / 10.5	42.1 / 9.2
AWM	44.4 / 7.0	46.7 / 8.8	37.2 / 13.2	62.3 / 6.1	3.4 / 7.7	44.1 / 9.0
REASONINGBANK	49.7 / 6.1	51.1 / 8.2	40.6 / 12.3	67.0 / 5.6	13.8 / 8.8	48.8 / 8.3
Gemini-1.5-pro
无记忆	45.5 / 7.6	51.1 / 8.7	35.0 / 11.6	71.7 / 6.0	8.8 / 6.9	46.7 / 8.8
Synapse	46.5 / 6.6	52.2 / 8.9	38.3 / 11.3	68.9 / 5.9	9.0 / 6.9	47.7 / 8.5
AWM	48.1 / 6.4	49.3 / 9.8	40.0 / 11.2	68.9 / 6.4	9.3 / 3.4	47.6 / 8.7
REASONINGBANK	51.9 / 6.0	56.6 / 7.7	44.4 / 9.8	80.2 / 5.1	13.8 / 8.2	53.9 / 7.4
Claude-3.5-sonnet
无记忆	38.5 / 6.1	49.5 / 8.4	36.7 / 10.6	53.8 / 5.5	0.0 / 11.6	41.7 / 8.0
Synapse	39.6 / 5.8	50.5 / 8.5	38.0 / 10.0	53.8 / 6.1	0.0 / 11.8	42.6 / 7.9
AWM	39.6 / 7.2	47.8 / 9.3	34.6 / 10.9	52.8 / 7.0	0.0 / 12.4	40.8 / 8.9
REASONINGBANK	44.9 / 5.6	53.3 / 7.6	41.1 / 9.5	57.5 / 5.2	3.4 / 10.5	46.3 / 7.3

REASONINGBANK在所有数据集上始终优于所有LLM骨干的基线。 具体来说，与无记忆智能体相比，REASONINGBANK在WebArena（表1）上的总体成功率通过三种不同的骨干LLM分别提高了+8.3、+7.2和+4.6。在Mind2Web（表3）上也存在类似的模式，其中REASONINGBANK在跨任务、跨网站和跨领域设置中均取得了明显的收益，这突显了其优势在不同数据集和模型规模上的一致性和可扩展性。在SWE-Bench-Verified（表2）上的结果进一步证实了其稳健性。至关重要的是，与像Synapse和AWM这样依赖于仅从成功轨迹中获得的狭窄、同质记忆源的基线不同，REASONINGBANK采用了一种卓越的提取策略，这是其持续优越表现的关键。

表 2 | REASONINGBANK 在 SWE-Bench-Verified 数据集上解决给定存储库中问题的实验结果。
方法	解决率	步数
Gemini-1.5-flash
无记忆	34.2	30.3
Synapse	35.4	30.7
REASONINGBANK	38.8	27.5
Gemini-1.5-pro
无记忆	54.0	21.1
Synapse	53.4	21.0
REASONINGBANK	57.4	19.8

REASONINGBANK通过更好的跨任务可迁移记忆增强了泛化能力。 我们还在具有挑战性的泛化设置中进行了评估。在WebArena（表1）上，Multi子集要求在多个网站之间迁移记忆，其中REASONINGBANK的平均成功率比较强的基线高出+4.6。相比之下，像AWM这样的强基线未能提供增益，甚至在这种设置下性能下降。在Mind2Web（表3）上，其中包括跨任务、跨网站和跨领域的评估，这些评估提出了逐渐更高的要求，REASONINGBANK持续提高了成功率。在需要最高泛化水平的跨领域设置中，增益尤其明显。这些结果表明，由REASONINGBANK策划的记忆更稳健、更具可迁移性，使智能体能够在多样化的场景中有效地泛化。

REASONINGBANK通过利用过去的经验作为记忆，实现了卓越的效率。 除了更高的成功率，REASONINGBANK还减少了完成任务所需的交互步骤数，如表1和表2中的Step指标所示。在WebArena上，几乎在所有子集和骨干模型中，REASONINGBANK与“无记忆”相比，平均步数减少了高达1.4步，与其他记忆基线相比减少了1.6步。在SWE-Bench-Verified上的平均步数也更少，分别节省了2.8和1.3步。这表明REASONINGBANK使智能体能够通过重用和提炼推理知识来更有效地解决任务，从而避免了不必要或冗余的探索。

4.3. MATTS的结果

我们在WebArena-Shopping子集上使用Gemini-1.5-flash对MATTS进行了实验。默认情况下，MATTS集成了REASONINGBANK，但它也可以使用其他记忆机制。为了研究整体的扩展效果，我们与以下几种情况进行了基准比较：（i）MATTS w/o memory（无记忆的MATTS），代表没有记忆机制的扩展设置；（ii）MATTS w/o aggregation（无聚合的MATTS），等同于图3(a)中的朴素TTS；以及（iii）MATTS，以展示相对于扩展因子k的效果。值得注意的是，k=1是无扩展的设置。对于并行扩展，我们计算N中选优（BON）作为最终指标，详见附录A.3。结果如图4所示。

并行扩展和顺序扩展都提升了性能。 增加k通常会提高成功率，这证实了分配更多推理时计算的好处。通过MATTS，并行扩展从49.7（k=1）增长到55.1（k=5），而顺序扩展从49.7上升到54.5。对于无记忆的MATTS基线，增益更小且不那么一致（例如，并行扩展在39.0和42.2之间波动，顺序扩展在37.4和40.6之间）。相比之下，MATTS在这两种扩展策略中都能实现更强劲、更稳定的改进，突显了其在使扩展更有效方面的作用。

MATTS始终优于朴素TTS。 通过REASONINGBANK，MATTS始终超过了无聚合的MATTS（朴素TTS），表明具有记忆感知的协调和聚合是重要的。具体来说，在k=5时，MATTS在并行扩展中达到55.1，而朴素TTS为52.4；在顺序扩展中为54.5，而朴-素TTS为51.9。这些改进突出表明，记忆感知的扩展通过从多个轨迹或交互步骤中综合见解以利用对比信号，有效地引导智能体走向更有希望的解决方案。

顺序扩展显示出短期优势，但并行扩展在更大规模上对REASONINGBANK占主导地位。 对于像REASONINGBANK这样更强的记忆机制，顺序精炼在小的k值下带来更高的增益，但其好处很快就饱和了——一旦模型要么成功，要么决定性地失败，进一步的精炼增加的新见解就很少了。相比之下，并行扩展继续提供多样化的展开，使模型能够批判和改进其自身的生成，使其在更大的k值下超过顺序扩展（例如，在k=5时为55.1对54.5）。相比之下，对于没有配备记忆模块的朴素TTS，随着扩展的进行，顺序扩展产生的益处很少甚至没有，而并行扩展始终占主导地位。

4.4. 记忆与测试时扩展的协同作用

虽然前一节确立了MATTS的整体有效性，但在本节中，我们强调记忆和TTS之间的协同作用。图5展示了在WebArena-Shopping子集上使用并行扩展因子k=3的MATTS快照，我们报告了Pass@1（随机选择的轨迹）和Best-of-3（BoN）。此设置使我们能够检查记忆质量和扩展有效性之间的双向互动。

更好的记忆能带来更强的测试时扩展性能。 为了了解记忆如何提高扩展的有效性，我们关注BoN结果，它直接衡量了智能体在多个展开中呈现最佳结果的能力。如图5中的蓝色条形图所示，扩展的好处关键取决于底层的记忆。没有记忆时，扩展带来的改进微乎其微，BoN仅从39.0上升到40.6。像Synapse和AWM这样较弱的记忆机制提供了适度的增益，分别达到42.8和45.5。相比之下，带有REASONINGBANK的MATTS提供了最强的好处，BoN从49.7攀升至52.4。这些结果表明，高质量的记忆将扩展引向更有希望的展开，确保额外的轨迹不会被浪费，而是转化为更高的成功率。

扩展能带来更好的记忆策划。 为了公平地评估扩展如何反馈到记忆中，我们报告了Pass@1，它衡量了记忆策划后轨迹的平均质量，并允许与无扩展情况直接比较。这一趋势如粉色条形图所示，并且非常惊人：对于较弱的记忆，扩展实际上降低了性能，其中Synapse从40.6下降到40.1，AWM从44.4下降到41.2。这些下降表明，没有强有力的指导，扩展生成的额外展开引入的是噪音而非有用的信号。相比之下，REASONINGBANK是唯一受益的方法：Pass@1从49.7上升到50.8，表明高质量的记忆可以利用扩展的多样性来提取建设性的对比信号。这种不对称性凸显了仅有扩展是不够的；只有与好的记忆机制配对，它才能有助于策划更有效的记忆，从而闭合良性循环。

5. 分析

我们通过三个方面来分析REASONINGBANK在整体基准性能之外的表现：结合失败轨迹，考察涌现策略，以及评估在成功和失败案例中的效率。更多分析见附录C。

5.1. REASONINGBANK的涌现行为

我们发现REASONINGBANK中的策略不是扁平或单一的，而是在时间上不断演变，展现出类似于强化学习学习动态的涌现行为。如图6所示，REASONINGBANK中的一个记忆项在测试时学习过程中可能逐渐演变。它从面向执行或程序性的策略开始（例如，找到导航链接），其中智能体遵循直接的行动规则。然后它进展到适应性的自我反思，例如重新验证标识符以减少简单错误。随着更多经验的积累，同一个记忆项演变为适应性检查，其中智能体系统地利用可用的搜索或筛选器以确保结果的完整性。最终，它最终成熟为组合策略，例如交叉引用任务要求和重新评估选项。这种演变凸显了REASONINGBANK如何使智能体在测试时学习期间从低级行动到高级推理来提炼策略。

5.2. 结合失败轨迹

图7比较了在WebArena-Shopping上使用Gemini-1.5-flash的不同记忆设计，在两种设置下：仅使用成功轨迹与同时利用成功和失败轨迹。像Synapse和AWM这样的基线方法仅从成功轨迹中构建记忆，因此无法从失败中获益。结果，当添加失败时，它们的性能受限甚至下降：Synapse仅从40.6（仅成功）增加到41.7（有失败），而AWM从44.4下降到42.2。相比之下，REASONINGBANK的设计使得能够从成功和失败中提炼推理模式，在仅成功的轨迹上达到46.5，并且在包含失败时进一步提高到49.7。这突出表明，与基线不同，REASONINGBANK可以将失败转化为建设性信号而非噪音，从而实现更稳健的泛化。

在SWE-Bench-Verified上的平均步骤也更少，分别节省了2.8步和1.3步。这表明REASONINGBANK通过重用和提炼推理知识，使智能体能够更有效地解决任务，从而避免了不必要或冗余的探索。

5.3. 效率研究

虽然表1中的总步数提供了模型效率的总体视图，但它并未区分减少是来自成功的轨迹还是失败的轨迹。为了获得更深入的了解，我们进一步将分析分为成功和失败的测试案例，这使我们能够理解步数减少的来源：一个理想的系统应该在走在正确的轨道上时减少不必要的探索，而不仅仅是缩短失败的尝试。结果如表4所示。我们发现，与基线相比，REASONINGBANK在所有领域都持续减少了步数。更重要的是，在成功的案例中，减少尤为明显，比失败案例少多达2.1步（相对减少26.9%）。这表明REASONINGBANK主要通过加强其遵循有效推理路径的能力，帮助智能体以更少的交互达到解决方案，而不仅仅是截断失败的轨迹，这突显了记忆在指导有目的的决策和提高实践效率方面的作用。

6. 结论

我们介绍了REASONINGBANK，一个从成功和失败中提炼策略级推理信号，并将其整合到测试时扩展（MATTS）中的记忆框架。广泛的实验表明，REASONINGBANK在提高性能的同时，持续减少了冗余探索。进一步的结果揭示了记忆和扩展之间的强大协同作用：REASONINGBANK引导扩展走向更有希望的展开，而多样化的展开则以有价值的对比信号丰富了记忆。我们还提供了对单个组件和涌现行为的分析。我们的发现为构建自适应和终身学习的智能体提供了一条实用的途径，附录D和E中还讨论了未来的方向和局限性。

7. 致谢

我们感谢Jiao Sun、Jing Nathan Yan以及来自谷歌云人工智能研究院的成员们在论文准备过程中提出的宝贵反馈。

参考文献

表 3 | Mind2Web基准测试上跨任务、跨网站和跨领域泛化测试的结果。EA (↑) 是元素准确率的缩写，$AF_{1}$ (↑) 是动作$F_{1}$分数的缩写，SSR (↑) 是步骤成功率的缩写。SR (↑) 是任务级成功率，衡量是否所有步骤都正确。
模型	跨任务 (252)	跨网站 (177)	跨领域 (912)
Gemini-1.5-flash
无记忆	46.0	59.1	40.3	3.3	39.8	45.1	31.7	1.7	35.8	37.9	31.9	1.0
Synapse	47.0	59.5	41.2	3.5	40.3	46.0	32.1	1.9	36.3	38.5	32.4	1.1
AWM	46.3	56.1	41.0	3.5	39.1	42.2	31.7	2.1	33.3	36.5	30.1	0.7
REASONINGBANK	52.1	60.4	44.9	4.8	44.3	52.6	33.9	2.3	40.6	41.3	36.6	1.6
Gemini-1.5-pro
无记忆	49.3	60.2	44.4	3.5	41.2	49.8	34.8	3.4	37.9	37.7	35.0	1.4
Synapse	50.1	61.0	44.7	3.6	41.8	51.2	35.0	3.2	38.5	39.8	35.6	1.5
AWM	48.6	61.2	44.4	3.7	41.9	47.9	34.8	2.3	37.3	38.1	34.4	1.2
REASONINGBANK	53.6	62.7	45.6	5.1	46.1	54.8	36.9	3.8	42.8	45.2	38.1	1.7

表 4 | 在四个WebArena领域上，成功和失败测试实例的平均步数。与朴素基线相比，REASONINGBANK持续减少了步数，在成功实例上的减少尤为显著。
模型	购物	管理	Gitlab	Reddit
无记忆	8.7	6.8	10.4	8.4	15.7	8.6	7.6	6.1
REASONINGBANK	7.3 ↓1.4	4.7 ↓2.1	9.5 ↓0.9	7.0 ↓1.4	15.5 ↓0.2	7.6 ↓1.0	6.8 ↓0.8	5.0 ↓1.1

Anthropic. Claude 3.5 sonnet and claude code, 2025. URL https://www.anthropic.com/news/claude-3-5-sonnet.

S. Chen, S. Lin, X. Gu, Y. Shi, H. Lian, L. Yun, D. Chen, W. Sun, L. Cao, and Q. Wang. Swe-exp: Experience-driven software issue resolution. ArXiv preprint, abs/2507.23361, 2025. URL https://arxiv.org/abs/2507.23361.

T. Chen, S. Kornblith, M. Norouzi, and G. E. Hinton. A simple framework for contrastive learning of visual representations. In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, volume 119 of Proceedings of Machine Learning Research, pages 1597-1607. PMLR, 2020. URL http://proceedings.mlr.press/v119/chen20j.html.

P. Chhikara, D. Khant, S. Aryan, T. Singh, and D. Yadav. Mem0: Building production-ready ai agents with scalable long-term memory. ArXiv preprint, abs/2504.19413, 2025. URL https://arxiv.org/abs/2504.19413.

Y. Chow, G. Tennenholtz, I. Gur, V. Zhuang, B. Dai, A. Kumar, R. Agarwal, S. Thiagarajan, C. Boutilier, and A. Faust. Inference-aware fine-tuning for best-of-n sampling in large language models. In The Thirteenth International Conference on Learning Representations, 2025. URL https://openreview.net/forum?id=77gQUdQhE7.

G. Comanici, E. Bieber, M. Schaekermann, I. Pasupat, N. Sachdeva, I. Dhillon, M. Blistein, O. Ram, D. Zhang, E. Rosen, et al. Gemini 1.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities. ArXiv preprint, abs/2507.06261, 2025. URL https://arxiv.org/abs/2507.06261.

T. L. S. de Chezelles, M. Gasse, A. Lacoste, M. Caccia, A. Drouin, L. Boisvert, M. Thakkar, T. Marty, R. Assouel, S. O. Shayegan, L. K. Jang, X. H. Lù, O. Yoran, D. Kong, F. F. Xu, S. Reddy, G. Neubig, Q. Cappart, R. Salakhutdinov, and N. Chapados. The browsergym ecosystem for web agent research. Transactions on Machine Learning Research, 2025. ISSN 2835-8856. URL https://openreview.net/forum?id=5298fKGmv3. Expert Certification.

X. Deng, Y. Gu, B. Zheng, S. Chen, S. Stevens, B. Wang, H. Sun, and Y. Su. Mind2web: Towards a generalist agent for the web. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, editors, Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10-16, 2023, 2023. URL http://papers.nips.cc/paper_files/paper/2023/hash/5950bf290a1570ea401bf98882128160-Abstract-Datasets_and_Benchmarks.html.

R. Fang, Y. Liang, X. Wang, J. Wu, S. Qiao, P. Xie, F. Huang, H. Chen, and N. Zhang. Memp: Exploring agent procedural memory. ArXiv preprint, abs/2508.06433, 2025. URL https://arxiv.org/abs/2508.06433.

Z. Fountas, M. Benfeghoul, A. Oomerjee, F. Christopoulou, G. Lampouras, H. B. Ammar, and J. Wang. Human-inspired episodic memory for infinite context LLMs. In The Thirteenth International Conference on Learning Representations, 2025. URL https://openreview.net/forum?id=BI2int5SAC.

H.-a. Gao, J. Geng, W. Hua, M. Hu, X. Juan, H. Liu, S. Liu, J. Qiu, X. Qi, Y. Wu, et al. A survey of self-evolving agents: On path to artificial super intelligence. ArXiv preprint, abs/2507.21046, 2025. URL https://arxiv.org/abs/2507.21046.

J. Gu, X. Jiang, Z. Shi, H. Tan, X. Zhai, C. Xu, W. Li, Y. Shen, S. Ma, H. Liu, et al. A survey on Ilm-as-a-judge. ArXiv preprint, abs/2411.15594, 2024. URL https://arxiv.org/abs/2411.15594.

I. Gur, H. Furuta, A. V. Huang, M. Safdari, Y. Matsuo, D. Eck, and A. Faust. A real-world webagent with planning, long context understanding, and program synthesis. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net, 2024. URL https://openreview.net/forum?id=9JQtrumvg8.

M. Hu, T. Chen, Q. Chen, Y. Mu, W. Shao, and P. Luo. HiAgent: Hierarchical working memory management for solving long-horizon agent tasks with large language model. In W. Che, J. Nabende, E. Shutova, and M. T. Pilehvar, editors, Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 32779-32798, Vienna, Austria, 2025a. Association for Computational Linguistics. ISBN 979-8-89176-251-0. doi: 10.18653/v1/2025.acl-long.1575. URL https://aclanthology.org/2025.acl-long.1575/.

Y. Hu, Y. Wang, and J. McAuley. Evaluating memory in LLM agents via incremental multi-turn interactions. In ICML 2025 Workshop on Long-Context Foundation Models, 2025b. URL https://openreview.net/forum?id=ZgQ0t3zYTQ.

C. E. Jimenez, J. Yang, A. Wettig, S. Yao, K. Pei, O. Press, and K. R. Narasimhan. Swe-bench: Can language models resolve real-world github issues? In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net, 2024. URL https://openreview.net/forum?id=VTF8yNQM66.

C. Jin, H. Peng, Q. Zhang, Y. Tang, D. N. Metaxas, and T. Che. Two heads are better than one: Test-time scaling of multi-agent collaborative reasoning. ArXiv preprint, abs/2504.09772, 2025. URL https://arxiv.org/abs/2504.09772.

T. Kagaya, T. J. Yuan, Y. Lou, J. Karlekar, S. Pranata, A. Kinose, K. Oguri, F. Wick, and Y. You. Rap: Retrieval-augmented planning with contextual memory for multimodal llm agents. ArXiv preprint, abs/2402.03610, 2024. URL https://arxiv.org/abs/2402.03610.

Y. Kong, D. Shi, G. Yang, C. Huang, X. Li, S. Jin, et al. Mapagent: Trajectory-constructed memory-augmented planning for mobile task automation. ArXiv preprint, abs/2507.21953, 2025. URL https://arxiv.org/abs/2507.21953.

J. Lee, F. Chen, S. Dua, D. Cer, M. Shanbhogue, I. Naim, G. H. Ábrego, Z. Li, K. Chen, H. S. Vera, et al. Gemini embedding: Generalizable embeddings from gemini. ArXiv preprint, abs/2503.07891, 2025. URL https://arxiv.org/abs/2503.07891.

D. Li, S. Cao, C. Cao, X. Li, S. Tan, K. Keutzer, J. Xing, J. E. Gonzalez, and I. Stoica. S*: Test time scaling for code generation. ArXiv preprint, abs/2502.14382, 2025a. URL https://arxiv.org/abs/2502.14382.

Z. Li, S. Song, H. Wang, S. Niu, D. Chen, J. Yang, C. Xi, H. Lai, J. Zhao, Y. Wang, et al. Memos: An operating system for memory-augmented generation (mag) in large language models. ArXiv preprint, abs/2505.22101, 2025b. URL https://arxiv.org/abs/2505.22101.

X. Liang, Y. He, Y. Xia, X. Song, J. Wang, M. Tao, L. Sun, X. Yuan, J. Su, K. Li, et al. Self-evolving agents with reflective and memory-augmented abilities. ArXiv preprint, abs/2409.00872, 2024. URL https://arxiv.org/abs/2409.00872.

B. Liu, X. Li, J. Zhang, J. Wang, T. He, S. Hong, H. Liu, S. Zhang, K. Song, K. Zhu, et al. Advances and challenges in foundation agents: From brain-inspired intelligence to evolutionary, collaborative, and safe systems. ArXiv preprint, abs/2504.01990, 2025a. URL https://arxiv.org/abs/2504.01990.

Y. Liu, C. Si, K. R. Narasimhan, and S. Yao. Contextual experience replay for self-improvement of language agents. In W. Che, J. Nabende, E. Shutova, and M. T. Pilehvar, editors, Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 14179-14198, Vienna, Austria, 2025b. Association for Computational Linguistics. ISBN 979-8-89176-251-0. doi: 10.18653/v1/2025.acl-long.694. URL https://aclanthology.org/2025.acl-long.694/.

E. Lumer, A. Gulati, V. K. Subbiah, P. H. Basavaraju, and J. A. Burke. Memtool: Optimizing short-term memory management for dynamic tool calling in llm agent multi-turn conversations. ArXiv preprint, abs/2507.21428, 2025. URL https://arxiv.org/abs/2507.21428.

A. Madaan, N. Tandon, P. Gupta, S. Hallinan, L. Gao, S. Wiegreffe, U. Alon, N. Dziri, S. Prabhumoye, Y. Yang, S. Gupta, B. P. Majumder, K. Hermann, S. Welleck, A. Yazdanbakhsh, and P. Clark. Self-refine: Iterative refinement with self-feedback. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, editors, Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 1016, 2023, 2023. URL http://papers.nips.cc/paper_files/paper/2023/hash/91edff07232fb1b55a505a9e9f6c0ff3-Abstract-Conference.html.

A. Maharana, D.-H. Lee, S. Tulyakov, M. Bansal, F. Barbieri, and Y. Fang. Evaluating very long-term conversational memory of LLM agents. In L.-W. Ku, A. Martins, and V. Srikumar, editors, Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 13851-13870, Bangkok, Thailand, 2024. Association for Computational Linguistics. doi: 10.18653/v1/2024.acl-long.747. URL https://aclanthology.org/2024.acl-long.7

A. Miyai, Z. Zhao, K. Egashira, A. Sato, T. Sunada, S. Onohara, H. Yamanishi, M. Toyooka, K. Nishina, R. Maeda, et al. Webchorearena: Evaluating web browsing agents on realistic tedious web tasks. ArXiv preprint, abs/2506.01952, 2025. URL https://arxiv.org/abs/2506.01952.

N. Muennighoff, Z. Yang, W. Shi, X. L. Li, L. Fei-Fei, H. Hajishirzi, L. Zettlemoyer, P. Liang, E. Candès, and T. Hashimoto. s1: Simple test-time scaling. ArXiv preprint, abs/2501.19393, 2025. URL https://arxiv.org/abs/2501.19393.

C. Packer, V. Fang, S. Patil, K. Lin, S. Wooders, and J. Gonzalez. Memgpt: Towards llms as operating systems. 2023.

J. Pan, Y. Zhang, N. Tomlin, Y. Zhou, S. Levine, and A. Suhr. Autonomous evaluation and refinement of digital agents. In First Conference on Language Modeling, 2024. URL https://openreview.net/forum?id=NPAQ6FKSmK.

C. Qian, S. Liang, Y. Qin, Y. Ye, X. Cong, Y. Lin, Y. Wu, Z. Liu, and M. Sun. Investigate-consolidate-exploit: A general strategy for inter-task agent self-evolution. ArXiv preprint, abs/2401.13996, 2024. URL https://arxiv.org/abs/2401.13996.

A. Setlur, N. Rajaraman, S. Levine, and A. Kumar. Scaling test-time compute without verification or RL is suboptimal. In Forty-second International Conference on Machine Learning, 2025. URL https://openreview.net/forum?id=beeNgQEfe2.

R. Shao, R. Qiao, V. Kishore, N. Muennighoff, X. V. Lin, D. Rus, B. K. H. Low, S. Min, W. tau Yih, P. W. Koh, and L. Zettlemoyer. ReasonIR: Training retrievers for reasoning tasks. In Second Conference on Language Modeling, 2025. URL https://openreview.net/forum?id=kkBCNLMbGj.

J. Shen, H. Bai, L. Zhang, Y. Zhou, A. Setlur, S. Tong, D. Caples, N. Jiang, T. Zhang, A. Talwalkar, et al. Thinking vs. doing: Agents that reason by scaling test-time interaction. ArXiv preprint, abs/2506.07976, 2025. URL https://arxiv.org/abs/2506.07976.

C. V. Snell, J. Lee, K. Xu, and A. Kumar. Scaling LLM test-time compute optimally can be more effective than scaling parameters for reasoning. In The Thirteenth International Conference on Learning Representations, 2025. URL https://openreview.net/forum?id=4FWAwZtd2n.

模型	购物 (187)	管理 (182)	Gitlab (180)	Reddit (106)	综合 (29)	总体 (684)
	SR / 步数	SR / 步数	SR / 步数	SR / 步数	SR / 步数	SR / 步数
Gemini-1.5-flash
无记忆	39.0 / 8.2	44.5 / 9.5	13.3 / 33.9	55.7 / 6.7	10.3 / 10.0	40.5 / 9.7
Synapse	40.6 / 7.0	45.1 / 9.1	35.6 / 13.0	59.4 / 6.5	10.3 / 10.5	42.1 / 9.2
AWM	44.4 / 7.0	46.7 / 8.8	37.2 / 13.2	62.3 / 6.1	3.4 / 7.7	44.1 / 9.0
REASONINGBANK	49.7 / 6.1	51.1 / 8.2	40.6 / 12.3	67.0 / 5.6	13.8 / 8.8	48.8 / 8.3
Gemini-1.5-pro
无记忆	45.5 / 7.6	51.1 / 8.7	35.0 / 11.6	71.7 / 6.0	8.8 / 6.9	46.7 / 8.8
Synapse	46.5 / 6.6	52.2 / 8.9	38.3 / 11.3	68.9 / 5.9	9.0 / 6.9	47.7 / 8.5
AWM	48.1 / 6.4	49.3 / 9.8	40.0 / 11.2	68.9 / 6.4	9.3 / 3.4	47.6 / 8.7
REASONINGBANK	51.9 / 6.0	56.6 / 7.7	44.4 / 9.8	80.2 / 5.1	13.8 / 8.2	53.9 / 7.4
Claude-3.5-sonnet
无记忆	38.5 / 6.1	49.5 / 8.4	36.7 / 10.6	53.8 / 5.5	0.0 / 11.6	41.7 / 8.0
Synapse	39.6 / 5.8	50.5 / 8.5	38.0 / 10.0	53.8 / 6.1	0.0 / 11.8	42.6 / 7.9
AWM	39.6 / 7.2	47.8 / 9.3	34.6 / 10.9	52.8 / 7.0	0.0 / 12.4	40.8 / 8.9
REASONINGBANK	44.9 / 5.6	53.3 / 7.6	41.1 / 9.5	57.5 / 5.2	3.4 / 10.5	46.3 / 7.3

模型	跨任务 (252)				跨网站 (177)				跨领域 (912)
模型	EA	$AF_{1}$	SSR	SR	EA	$AF_{1}$	SSR	SR	EA	$AF_{1}$	SSR	SR
Gemini-1.5-flash
无记忆	46.0	59.1	40.3	3.3	39.8	45.1	31.7	1.7	35.8	37.9	31.9	1.0
Synapse	47.0	59.5	41.2	3.5	40.3	46.0	32.1	1.9	36.3	38.5	32.4	1.1
AWM	46.3	56.1	41.0	3.5	39.1	42.2	31.7	2.1	33.3	36.5	30.1	0.7
REASONINGBANK	52.1	60.4	44.9	4.8	44.3	52.6	33.9	2.3	40.6	41.3	36.6	1.6
Gemini-1.5-pro
无记忆	49.3	60.2	44.4	3.5	41.2	49.8	34.8	3.4	37.9	37.7	35.0	1.4
Synapse	50.1	61.0	44.7	3.6	41.8	51.2	35.0	3.2	38.5	39.8	35.6	1.5
AWM	48.6	61.2	44.4	3.7	41.9	47.9	34.8	2.3	37.3	38.1	34.4	1.2
REASONINGBANK	53.6	62.7	45.6	5.1	46.1	54.8	36.9	3.8	42.8	45.2	38.1	1.7

模型	购物		管理		Gitlab		Reddit
模型	失败	成功	失败	成功	失败	成功	失败	成功
无记忆	8.7	6.8	10.4	8.4	15.7	8.6	7.6	6.1
REASONINGBANK	7.3 ↓1.4	4.7 ↓2.1	9.5 ↓0.9	7.0 ↓1.4	15.5 ↓0.2	7.6 ↓1.0	6.8 ↓0.8	5.0 ↓1.1

REASONINGBANK：通过推理记忆扩展智能体的自我进化能力

摘要