作者: Siru Ouyang¹, Jun Yan², I-Hung Hsu², Yanfei Chen², Ke Jiang², Zifeng Wang², Rujun Han², Long T. Le², Samira Daruki², Xiangru Tang³, Vishy Tirumalashetty², George Lee², Mahsan Rofouei, Hangfei Lin¹, Jiawei Han¹, Chen-Yu Lee² and Tomas Pfister²
机构: ¹伊利诺伊大学厄巴纳-香槟分校, ²谷歌云人工智能研究院, ³耶鲁大学, 谷歌云人工智能
随着大型语言模型智能体在持久性的现实世界角色中被越来越多地采用,它们自然会遇到连续不断的任务流。然而,一个关键的局限性是,它们无法从累积的交互历史中学习,这迫使它们丢弃宝贵的见解并重复过去的错误。我们提出了 REASONINGBANK,一个新颖的记忆框架,它从智能体自我判断的成功和失败经历中提炼出可泛化的推理策略。在测试时,智能体从 REASONINGBANK 中检索相关记忆以指导其交互,然后将新的学习内容整合回去,使其能够随着时间的推移变得更加强大。基于这个强大的经验学习器,我们进一步引入了记忆感知测试时扩展(MATTS),它通过扩大智能体的交互经验来加速和多样化这一学习过程。通过为每个任务分配更多的计算资源,智能体生成了丰富、多样的经验,为合成更高质量的记忆提供了丰富的对比信号。更好的记忆反过来又指导了更有效的扩展,从而在记忆和测试时扩展之间建立了强大的协同作用。在网页浏览和软件工程基准测试中,REASONINGBANK 始终优于现有的存储原始轨迹或仅存储成功任务例程的记忆机制,在效果和效率上都有所提高;MATTS 进一步放大了这些收益。这些发现将记忆驱动的经验扩展确立为一个新的扩展维度,使智能体能够通过自然出现的涌现行为进行自我进化。
摘要解读:
想象一个AI机器人,它的工作是帮你处理各种日常任务,比如上网订票、整理文件。这种机器人我们称之为“智能体”。现在的问题是,这个机器人有点“健忘”,它每次做任务都像第一次一样,完全不记得以前的经验。比如,它上次订票时走错了一个步骤,导致失败了,下次遇到同样的情况,它还是会犯同样的错误。它也记不住那些成功的巧妙方法。这就好比一个学生,做过的错题不总结,做对的题也不归纳方法,成绩自然很难提高。
为了解决这个问题,这篇论文提出了一个叫做 REASONINGBANK 的新方法,可以把它理解成给机器人装上了一个“超级大脑”或者“错题本+精华笔记”。这个“大脑”非常聪明,它会自动分析机器人每次任务的“经历”,不管是成功还是失败的,然后把其中最有价值的“经验教训”(也就是“推理策略”)总结提炼出来,存进一个“记忆库”里。比如,它会总结出“订票时,要先登录账户才能看到历史订单”这样的通用技巧,或者“如果A方法行不通,可以尝试B方法”这样的备用方案。
有了这个 REASONINGBANK,机器人每次接到新任务时,就会先去“记忆库”里翻一翻,看看有没有类似的经验可以借鉴。完成任务后,无论成败,新的经验又会被总结提炼,更新到“记忆库”里。这样一来,机器人就像一个会不断学习、总结、反思的好学生,越用越聪明,能力越来越强。
论文还提出了一个“进阶版”的学习方法,叫做 MATTS。这个方法的核心思想是“深度体验,集中学习”。它不是让机器人做更多的不同任务,而是在做一个任务时,投入更多的“精力”(计算资源),让它尝试用各种不同的方法去解决这一个问题。这就好比老师让学生用三种不同的方法解同一道数学题。通过比较这些不同方法的优劣(对比信号),机器人能总结出更深刻、更通用的解题规律,形成更高质量的“精华笔记”。这些高质量的笔记又能更好地指导它未来的行动,形成了一个“学习”和“实践”相互促进的良性循环。最终的实验结果表明,装上了“超级大脑”(REASONINGBANK)和学会了“深度学习法”(MATTS)的机器人,在上网和编程这些任务上,表现得比以前的机器人好得多,既做得对,又做得快。
大型语言模型(LLMs)的快速发展极大地加速了LLM智能体的开发,这些智能体对于处理需要与环境进行多步交互的复杂现实世界任务至关重要,包括网页浏览和计算机使用。随着这些智能体越来越多地被部署在持久的、长期运行的角色中,它们在其生命周期内自然会遇到连续不断的任务流。然而,它们在很大程度上未能从跨任务的累积经验中学习。通过孤立地处理每个任务,它们注定要重复过去的错误,丢弃从相关问题中获得的宝贵见解,并且缺乏使智能体系统随着时间推移变得更加强大的自我进化能力。这凸显了构建能够从过去经验中学习的记忆感知智能体系统的必要性。
引言解读 (第一段):
首先,作者肯定了现在AI技术(特别是大型语言模型,就是我们常说的“大模型”)的进步,让开发能干活的“AI智能体”变得更容易了。这些智能体很厉害,能帮我们完成一些复杂的操作,比如自动上网查资料、操作电脑软件等。现在我们想让这些AI智能体像真人一样,能7x24小时不间断地工作,处理一个又一个的任务。但问题来了:这些AI智能体是个“直肠子”,记不住教训。它们处理每个任务都是独立的,做完就忘。这就导致了三个很严重的问题:第一,重复犯错,上次掉进的坑,这次还会掉进去;第二,浪费经验,从一个任务中学到的技巧,不能应用到相似的任务上;第三,无法成长,AI用了一年还和第一天一样“笨”,没有“越用越聪明”的自我进化能力。所以,作者明确指出,我们急需给AI装上一个“记忆系统”,让它能从过去的经验中学习和成长。
近期在智能体记忆方面的努力主要集中在存储过去的交互以供重用。虽然有用,但这些方法通常仅限于利用原始轨迹或常见的、成功的例程(即工作流程、程序)。这些方法存在两个根本性的缺点。首先,它们缺乏提炼更高级别、可迁移的推理模式的能力。其次,通过过分强调成功的经验,它们使得智能体从自身失败中获得的宝贵教训在很大程度上未被探索。因此,现有的记忆设计通常仍然局限于被动的记录保存,而不是为未来的决策提供可操作的、可泛化的指导。
引言解读 (第二段):
接着,作者分析了当前已有的AI“记忆系统”有什么不足。目前的方法,基本上就是把AI过去的操作记录原封不动地存起来,像个录像机一样。这些记录(“原始轨迹”)或者一些被证明有效的固定套路(“成功例程”)确实有点用,但存在两大硬伤:
第一,不够“深刻”。它们只是简单地记录了“做了什么”,而没有去思考“为什么要这么做”。AI无法从中总结出更通用、更底层的规律或方法(“高级别、可迁移的推理模式”)。这就好比一个学生只知道背诵“这道题的答案是A”,却不理解背后的公式和原理,换个数字就不会做了。
第二,“报喜不报忧”。这些方法大多只关注成功的经验,把失败的经历当成垃圾一样扔掉了。但我们都知道,“失败是成功之母”,从错误中吸取的教训往往比成功的经验更宝贵。现在的AI记忆系统忽略了这一点,浪费了大量的学习机会。所以结论是,目前的AI记忆还只是个“被动记录员”,而不是一个能提供真知灼见的“主动指导员”。
图1 解读:
这张图的核心思想非常直观,它展示了“学霸”和“普通学生”在连续做题过程中的成绩变化曲线。
我们可以清晰地看到,随着做的题目越来越多,两条线都在上升,说明两个AI都在解决问题。但关键的区别在于增长的速度和趋势。紫色实线明显比灰色虚线更“陡峭”,并且随着时间的推移,两条线之间的差距越来越大。这说明“学霸”AI的进步速度更快,解决问题的能力越来越强,体现了“学习和进化”的过程。而“普通”AI虽然也能做对一些题,但它的进步非常缓慢,更像是在原地踏步,没有从经验中获得成长。
图中标出的一些点,比如“商店内Top-2搜索”、“客户的最早订单”,代表了AI在测试过程中遇到的具体任务。红框圈出的部分尤其关键,它展示了在解决第20个任务左右时,“学霸”AI成功了,而“普通”AI可能就在这个或类似的任务上失败了或者效率低下,从而拉开了差距。这生动地说明了REASONINGBANK通过总结和运用过去的经验,帮助AI攻克了那些没有记忆就很难解决的复杂问题。
为了弥合这一差距,我们提出了REASONINGBANK,一个为智能体系统设计的新颖记忆框架。REASONINGBANK 从智能体自身判断的成功和失败经验中提炼和组织记忆项,无需真实标签。如图1所示,它不仅从成功中捕捉有效的策略,还从失败中捕捉关键的预防性教训,将它们抽象成一系列可操作的原则。这个过程以闭环方式运作:当面临新任务时,智能体从REASONINGBANK中检索相关记忆来指导其行动。之后,新的经验被分析、提炼并整合回REASONINGBANK中,使智能体能够持续进化和提升其战略能力。
方法介绍解读 (第一段):
这里正式隆重推出了本文的核心解决方案——REASONINGBANK。它的目标就是解决前面提到的所有问题。REASONINGBANK就像一个超级智能的“学习系统”,它有两个非常关键的特点:
第一,“成败兼收”:它不仅学习成功的案例,总结出“怎样做才能对”的有效方法;更重要的是,它还会仔细研究失败的案例,总结出“为什么会错”以及“如何避免再错”的宝贵教训。这就像一个顶尖学霸,不仅会归纳解题技巧,还有一个专门的错题本,反复研究自己的错误,确保不再犯。
第二,“闭环进化”:整个学习过程是循环不断的,形成一个正向反馈。具体来说就是:遇到新问题 → 翻阅记忆库找经验 → 利用经验解决问题 → 总结新经验(无论成败)→ 更新到记忆库。通过这个“学习-实践-总结-更新”的闭环,AI智能体的能力会像滚雪球一样越来越强,实现真正的自我进化。
以REASONINGBANK作为一个强大的经验学习器,我们研究经验扩展,以在记忆和测试时扩展之间建立强大的协同作用。我们不通过增加更多任务来从广度上扩展经验,而是专注于通过在每个任务上进行更多探索来从深度上扩展经验。我们在并行和顺序设置中引入了记忆感知测试时扩展(MATTS),它生成多样化的探索以提供对比信号,使REASONINGBANK能够合 成更具泛化性的记忆。它在记忆和测试时扩展之间创造了一种协同作用:高质量的记忆引导扩展的探索走向更有希望的路径,而生成的丰富经验则锻造出更强大的记忆。这个正向反馈循环将记忆驱动的经验扩展定位为智能体的一个新的扩展维度。
方法介绍解读 (第二段):
在拥有了强大的学习工具REASONINGBANK之后,作者们想让它的学习效率更上一层楼。他们提出了一个叫做MATTS的“高级训练法”。这个方法的核心思想,不是搞“题海战术”(做很多不同的任务),而是搞“精深研究”(在一个任务上投入更多精力)。
具体怎么做呢?就是当AI遇到一个任务时,让它用好几种不同的方式去尝试解决(“多样化探索”)。比如,解一道数学题,让它试试代数法、几何法、函数法等等。然后,AI会比较这些方法的优劣——哪个更快?哪个更准?哪个更通用?通过这种“横向比较”(“对比信号”),AI就能总结出更高质量、更普适的经验,存入REASONINGBANK。这就形成了一个完美的配合:高质量的记忆(来自REASONINGBANK)能告诉AI哪些尝试方向更有可能成功,避免了盲目探索;而深入的探索(MATTS)又反过来能产生更高质量的记忆。这个“好记性”和“勤钻研”相互促进的过程,作者称之为“记忆驱动的经验扩展”,认为这是提升AI能力的一个全新维度。
我们在具有挑战性的网页浏览(WebArena, Mind2Web)和软件工程(SWE-Bench-Verified)基准测试上进行了广泛的实验。我们证明,我们的方法在效果(相对改进高达34.2%,图4(b))和效率(交互步骤减少16.0%,表1)上均优于基线。具体来说,REASONINGBANK与MATTS的协同效果最佳,使其成为记忆驱动的经验扩展中不可或缺的组成部分。
实验结果概述:
“是骡子是马拉出来遛遛”。作者们在一些公认的难题库(基准测试)上对他们的方法进行了严格的考试,这些难题库涉及网页浏览和编程。结果非常亮眼:他们的方法不仅做得更好(正确率相对提升了34.2%),而且做得更快(操作步骤减少了16.0%)。这充分证明了REASONINGBANK和MATTS的组合拳威力十足,是提升AI能力的一大利器。
我们的贡献有三方面:(1)我们提出了REASONINGBANK,一个新颖的记忆框架,它从成功和失败的经验中提炼可泛化的推理策略,超越了先前仅限于原始轨迹或仅成功例程的工作。(2)我们引入了MATTS,它在记忆和测试时扩展之间创造了强大的协同作用,将记忆驱动的经验确立为智能体的一个新的扩展维度。(3)我们通过广泛的实验证明,我们的方法不仅在效果和效率上优于现有方法,而且使智能体能够从失败中学习,并随着时间的推移发展出日益复杂的、涌现的推理策略。
贡献总结:
最后,作者总结了他们的三大创新点:
LLM智能体的记忆。 记忆已成为现代智能体系统中一个必不可少的模块,用以通过利用过去的信息来增强其性能。现有的记忆系统以多种形式组织和存储信息,包括纯文本、潜在知识嵌入和结构化图。除了记忆内容,这些方法通常还涉及检索机制(例如,语义搜索)和记忆管理策略(例如,更新)。最近,随着强化学习(RL)在LLM智能体中的发展日益增长,RL也被用于智能体系统中的记忆管理。虽然大多数努力主要强调个性化和长上下文管理,但本文属于从过去经验中学习的研究路线,将其作为记忆,这是发展自我进化智能体系统的一个关键方面。与以往强调重用成功轨迹或程序化工作流程的作品不同,REASONINGBANK存储了高级策略和推理提示。通过将经验抽象为可复用的推理单元,REASONINGBANK使智能体不仅能从成功案例中泛化,还能通过从失败中学习来进行泛化,从而为测试时学习提供更丰富的指导。此外,我们是第一个探索记忆感知测试时扩展的,其中REASONINGBANK与来自大量探索轨迹的多样化信号协同工作。
相关工作解读 (LLM智能体的记忆):
这部分内容是“文献综述”,即在提出自己的新方法前,先梳理一下前人都做过哪些相关的研究,以及他们的研究有什么局限性。这既是对前人工作的尊重,也是为了凸显自己工作的创新之处。
作者提到,给AI装上“记忆”已经成为共识。大家尝试了各种各样的记忆存储方式,比如像记事本一样存成纯文本,或者把知识压缩成AI能理解的数学形式(潜在知识嵌入),还有的用思维导图那样的结构化图来存储。光有存储还不够,还得有快速找到所需记忆的方法(检索机制)和定期整理、更新记忆的策略(记忆管理)。甚至有人用强化学习(一种让AI通过试错来学习的方法)来管理记忆。
然而,作者指出,之前的大部分研究主要把记忆用在两个方面:一是个性化,让AI记住你的偏好,更好地为你服务;二是长上下文管理,解决AI聊着聊着就忘了前面说过啥的问题。而本文关注的是一个更核心、更具挑战性的方向:让AI通过记忆实现自我进化和成长。
接着,作者指出了以往“自我进化”研究的不足:它们要么是简单地重复使用过去成功的操作录像(成功轨迹),要么是学习一些固定的操作流程(程序化工作流程)。而本文提出的 REASONINGBANK 更胜一筹,它存储的不是具体的操作步骤,而是更高层次的策略和思想(“高级策略和推理提示”)。它把经验提炼成通用的“智慧”,并且能同时从成功和失败中学习。最后,作者强调本文的另一个首创之处:将这种高级记忆与“深度体验”式的学习方法(MATTS)相结合,让记忆和探索性学习擦出火花。
智能体测试时扩展。 测试时扩展(TTS)已显示出强大的效果,并已成为端到端问题解决中广泛采用的做法,例如编码和数学推理,其中常用的方法包括N中选优、束搜索以及利用验证器。然而,其在多轮交互场景,特别是智能体任务中的应用仍未得到充分探索。现有的工作主要借鉴了从推理任务中学到的经验,并扩展了智能体系统的不同维度,包括每个动作的搜索空间、多智能体系统中的智能体数量以及与环境的交互次数。我们发现,这些努力都没有考虑到智能体记忆在扩展中的作用,即智能体可以从过去的经验中学习以指导未来的决策。我们的工作通过引入记忆感知测试时扩展(MATTS)来扩展这一研究领域。正如我们将在实证结果中展示的,记忆提供的好处超越了单纯的计算扩展,其中记忆和扩展协同工作以实现更好的性能。
相关工作解读 (智能体测试时扩展):
这里讨论的是另一个相关领域:“测试时扩展”(Test-Time Scaling, TTS)。这个术语听起来很专业,但它的核心思想很简单,就是“临时抱佛脚,大力出奇迹”。具体来说,就是在AI“考试”(测试)的时候,不让它只思考一次就给出答案,而是投入更多的计算资源,让它多想几种可能性,或者更深入地思考,从而提高最终答案的正确率。
比如,在编程或做数学题这类一次性出结果的任务上,大家常用一些技巧:像“N中选优”(让AI生成N个答案,然后挑个最好的),或者“束搜索”(一种更聪明的搜索策略,保留几种最有可能的解题路径继续探索)。这些方法已经被证明很有效。
但是,作者指出,这种“大力出奇迹”的方法在需要和环境一步步交互的“智能体任务”(比如上网购物)中,用得还比较少。虽然有人尝试过扩大每一步的选择范围,或者用更多的AI协作,但他们都忽略了一个关键因素:记忆。之前的研究没有想过,AI在“大力出奇迹”的时候,如果能借鉴过去的经验,是不是能“抱佛脚”抱得更准、更有效率?
因此,本文的另一个创新点就是把“记忆”和“测试时扩展”结合起来,提出了MATTS。作者预告说,后面的实验会证明,记忆和扩展的结合,不是简单的1+1=2,而是能产生协同效应,达到1+1>2的惊人效果。
在本节中,我们介绍问题设置(§3.1),并提出我们所设计的REASONINGBANK(§3.2),在此基础上我们进一步开发了记忆感知测试时扩展(MATTS)(§3.3)。
智能体配置。 本工作的范围集中于基于LLM的智能体。智能体策略 $\pi_{L}(\cdot|\mathcal{M},\mathcal{H})$ 由骨干LLM L参数化,并以一个记忆模块M和动作空间A为条件,简写为 $\pi_{L}$。智能体需要通过与环境交互来执行任务,这可以被看作一个顺序决策过程。形式上,环境的转移函数定义为 $\mathcal{T}(s_{t+1}|s_{t},a_{t})$,其中 $s_{t}$ 是状态,$a_{t}$ 是选择的动作。
问题形式化解读 (第一部分):
这部分开始进入“说人话”到“说数学语言”的转换阶段,目的是用精确、无歧义的符号来定义问题,这是科学研究的范式。其实质是把前面描述性的概念,用数学模型来表达。
总而言之,这段话用数学语言把一个AI智能体的工作过程定义清楚了:AI有一个依赖记忆的决策大脑($\pi_L$),它在一个会根据其行为而变化的环境($\mathcal{T}$)中,一步一步地做出决策来完成任务。
图2 解读:
这张图是 REASONINGBANK 工作流程的核心示意图,清晰地展示了前面提到的“闭环进化”过程。我们可以把它看作一个AI的学习循环:
整个过程形成了一个完美的闭环。AI通过检索旧记忆 → 产生新经验 → 提取新记忆 → 整合进记忆库的循环,不断地学习和成长。下面的时间轴也表明,这个过程是随着AI完成一个又一个任务而持续进行的,从而实现了能力的长期进化。
我们专注于网页浏览和软件工程(SWE)任务。A是一组用于网页浏览的网页导航操作和用于SWE任务的bash命令,M是REASONINGBANK,并初始化为空。对于每个给定的任务,智能体生成一个 t 步的轨迹 $(o_{0:t}, a_{0:t})$,其中观测 $o_t$ 来自当前状态 $s_t$。观测是网页浏览任务中基于文本的网页可访问性树和SWE中的代码片段。智能体需要通过 $\pi_{\mathcal{L}}(o_{0:t},a_{0:t};\mathcal{M},\mathcal{H})\rightarrow a_{t+1}$ 生成一个动作 $a_{t+1} \in \mathcal{A}$。在实现中,记忆模块M贡献相关记忆作为$\pi_{L}$的附加系统指令。
问题形式化解读 (第二部分):
这里继续用更具体的细节来描述问题。
测试时学习。 我们专注于测试时学习范式,其中一系列任务查询 $Q=\{q_1, q_2, ..., q_N\}$ 以流式方式到达,即每个查询被揭示并且必须在没有访问未来查询的情况下顺序完成。在这种设置中,测试期间没有可用的真实标签,因此智能体必须仅利用其自身的过去轨迹和任何自验证来持续进化,而不依赖于外部标签。这种流式设置突出了两个关键挑战:(i)如何从过去的轨迹中提取和保存有用的记忆,以及(ii)如何有效地利用这些记忆来处理未来的查询,以避免冗余地重新发现已经成功的策略或重复过去的错误。
测试时学习解读:
这里定义了AI学习的环境和规则,叫做“测试时学习”。这个名字有点反直觉,可以理解为“边干边学,现学现卖”。
它的核心设定是:
这种设定非常贴近现实世界,因为在真实工作中,我们往往也是在没有标准答案的情况下,依靠过去的经验来解决一个又一个未知的新问题。这种设定也引出了AI面临的两大核心挑战:
而这篇论文提出的REASONINGBANK,正是为了解决这两个核心挑战。
过去的原始轨迹(或经验),虽然全面且原始,但通常过于冗长和嘈杂,无法直接应用于当前的用户查询。如图2所示,REASONINGBANK将有用的策略和推理提示从过去的经验中提炼为结构化的记忆项,然后存储起来以备将来重用。
REASONINGBANK核心思想解读:
这里再次强调了REASONINGBANK的核心价值。直接把过去的“操作录像”(原始轨迹)拿来用,效果并不好。因为这些录像太长、太乱,充满了无关紧要的细节(“冗长和嘈杂”)。这就好比你想学习怎么做一道菜,直接看一段未经剪辑的、长达两小时的厨房录像,效果肯定不如看一个经过精心剪辑、提炼了关键步骤和技巧的5分钟短视频。
REASONINGBANK扮演的就是那个“金牌剪辑师”的角色。它不存储原始录像,而是从录像中提炼出精华——那些通用的策略和关键的思考点(“推理提示”),然后把它们整理成一条条结构清晰、易于理解的“笔记”(“结构化的记忆项”),存入记忆库,方便日后随时查阅和使用。
记忆模式。 REASONINGBANK中的记忆项被设计并从过去的经验中归纳为结构化的知识单元,它们抽象掉了低级别的执行细节,同时保留了可迁移的推理模式和策略。每个记忆项指定三个组成部分:(i)一个标题,作为总结核心策略或推理模式的简洁标识符;(ii)一段描述,提供对记忆项的简短单句摘要;以及(iii)内容,记录从过去经验中提取的提炼后的推理步骤、决策理由或操作见解。总而言之,提取出的记忆项既是人类可解释的,也是机器可用的。
记忆模式解读:
这里详细说明了“笔记”的具体格式,也就是“记忆模式”。这种格式的设计非常巧妙,旨在让记忆既清晰又实用。每一条记忆笔记都像一张知识卡片,包含三个标准部分:
通过这种“标题-描述-内容”的三段式结构,记忆变得非常规整。它剥离了那些无关紧要的细节(比如具体的商品名叫什么,上次是几点几分操作的),只保留了可以被举一反三、应用到其他类似任务上的通用智慧(“可迁移的推理模式和策略”)。这样的记忆,不仅我们人能看懂(“人类可解释的”),AI也能直接读取并使用(“机器可用的”),非常高效。
REASONINGBANK与智能体的集成。 配备了REASONINGBANK的智能体可以利用一个精心策划的可迁移策略池来指导决策。这使得智能体能够回忆起有效的见解,避免先前观察到的陷阱,并更稳健地适应未见的查询。集成过程分三步进行:(i)记忆检索,(ii)记忆构建,和(iii)记忆整合,如图2所示。在记忆检索期间,智能体使用当前查询上下文查询REASONINGBANK,以使用基于嵌入的相似性搜索识别出前k个相关的经验及其对应的记忆项。检索到的项被注入到智能体的系统指令中,确保决策过程基于有用的过去经验。当当前查询任务完成时,我们将执行记忆构建以提取新的记忆项。第一步是为已完成轨迹的正确性获取代理信号:我们采用一个“以LLM为法官”的方法来标记结果为成功或失败,无需访问任何真实标签。基于这些信号,我们应用不同的提取策略:成功的经验贡献了经过验证的策略,而失败的经验则提供了反事实信号和陷阱,有助于加强防护栏。在实践中,我们为每个轨迹/经验提取多个记忆项,详见附录A.1。最后,记忆整合通过简单的加法操作将这些项合并到REASONINGBANK中,维持一个不断演变的记忆项存储库。详情在附录A.2。总之,这些步骤形成一个闭环过程:智能体利用过去的经验,从当前任务中构建新的记忆,并不断更新其记忆,从而在测试时学习场景中实现持续进化。
集成过程解读:
这段详细解释了AI是如何使用REASONINGBANK这个“超级大脑”的,也就是前面图2展示的那个闭环过程的具体化。
第一步:(i) 记忆检索 (好比“考前回想”)
当AI接到一个新任务时,它会把任务描述转换成一种数学表达(“嵌入”),然后去记忆库里进行“相似度搜索”。这就像你在搜索引擎里输入关键词一样,AI会找到过去处理过的、和当前任务最相似的 k 个经验,以及与之关联的“智慧笔记”。然后,这些笔记会被直接塞进AI的“脑海”里,作为这次行动的“指导方针”。
第二步:(ii) 记忆构建 (好比“考后复盘”)
任务完成后,AI需要进行复盘总结。但由于没有老师,它怎么知道自己做得对不对呢?这里用了一个很酷的方法:“以LLM为法官”。就是让另一个大语言模型(或者它自己)扮演“裁判”的角色,根据任务要求和AI的最终结果,判断这次任务是“成功”还是“失败”。
得到“判决”后,AI会用不同的方式进行总结:
通常一次经历可以总结出好几条有价值的笔记。
第三步:(iii) 记忆整合 (好比“更新笔记”)
新总结出来的笔记,会通过最简单直接的方式——“加法操作”,直接添加到REASONINGBANK记忆库里。这样,记忆库就会像滚雪球一样,随着AI经验的增多而越来越丰富。
这三步完美地构成了一个学习-应用-总结-更新的闭环,让AI在不断的实践中实现了自我进化。
REASONINGBANK使得从经验中学习能够将更多的经验转化为更大的改进。由于测试时扩展最近已成为提升LLM智能体性能的强大策略,它通过分配额外的推理时计算来生成大量的探索历史,显示出强大的潜力。REASONINGBANK与测试时扩展的直接组合如图3(a)所示,其中更多的轨迹被独立地转换为更多的记忆项。然而,这种朴素的形式是次优的,因为它没有利用在同一问题上进行冗余探索时产生的内在对比信号,这限制了测试时扩展带来的性能优势。为了解决这个问题,我们提出了记忆感知测试时扩展(MATTS),一种将测试时扩展与REASONINGBANK新颖集成的方 法。与朴素方法不同,MATTS刻意从扩展过程中生成的大量成功和失败轨迹中学习,以进行更有效的记忆策划。我们为MATTS设计了两种互补的实例化:并行扩展和顺序扩展,如图3(b)和3(c)所示,详细实现在附录A.3中。
MATTS解读 (第一段):
有了REASONINGBANK这个高效的“学习工具”后,作者们思考如何为它提供更高质量的“学习材料”。他们想到了“测试时扩展”(TTS),也就是前面说的“大力出奇迹”的方法。最简单的结合方式(图3a),就是让AI用TTS方法产生一大堆的“解题记录”(轨迹),然后让REASONINGBANK挨个去分析总结。这就像让一个学生疯狂刷题,然后把每道题的解法都记下来。
但作者认为这种“朴素”的结合方式不够好(“次优”)。因为它忽略了一个宝贵的信息来源:对比。当你用多种方法解同一道题时,通过比较这些方法的优劣,你能学到更多。简单地把每个解法孤立地记下来,就浪费了这种“对比信号”。
因此,他们提出了更高级的结合方式——MATTS (记忆感知测试时扩展)。MATTS的核心思想是,有意识地、聪明地去利用“大力出奇迹”时产生的海量信息。它不仅仅是记录,更是要去比较和提炼。为了实现这一点,作者设计了两种具体的策略:
并行扩展。 在并行设置中,我们在检索到的记忆项的指导下,为同一个查询生成多个轨迹。通过在不同轨迹之间进行比较和对比(自对比),智能体可以识别出一致的推理模式,同时过滤掉虚假的解决方案。这个过程使得从单个查询的多次尝试中进行更可靠的记忆策划成为可能,从而促进了多样化的探索。
并行扩展解读:
这个策略就像老师让全班同学用不同方法解同一道题,然后把所有人的草稿纸收上来进行分析。具体做法是:
针对一个任务,AI会同时(并行)地生成好几条不同的解题路径(轨迹)。这些路径中,有的可能成功了,有的可能失败了。然后,AI会扮演“老师”的角色,把这些“草稿纸”放在一起进行“自对比”:
通过这种多角度的对比分析,AI能总结出更可靠、更经得起考验的“智慧笔记”,存入记忆库。这大大提升了学习的质量。
顺序扩展。 我们遵循自精炼的原则,在初始完成后,在单个轨迹内迭代地精炼其推理。在此过程中,自精炼中产生的中间笔记也被用作记忆的有价值信号,因为它们捕捉了可能不会出现在最终解决方案中的推理尝试、修正和见解。
顺序扩展解读:
这个策略则更像一个学霸在做完一道难题后,不着急对答案,而是自己反复检查、修改、完善解题过程。具体做法是:
AI先完成一次解题,得到一个初步的“解题路径”(轨迹)。然后,它会启动“自精炼”(self-refinement)模式,对自己刚才的解题过程进行反思和迭代优化:
这个反复检查、修改的过程本身,就充满了宝贵的“思维火花”。那些被修正的错误、被优化的步骤、以及各种“当时的想法”(“推理尝试、修正和见解”),都是非常有价值的学习材料。即使这些思考过程最终没有体现在完美的答案里,也应该被记录下来,存入记忆库。这就像学霸的草稿纸,虽然看起来乱,但上面记录的思维过程可能比最终的干净卷面更有启发性。