关闭广告

全面战胜ReAct!斯坦福全新智能体推理框架,性能提升112.5%

新智元2160人阅读


新智元报道

编辑:LRST

【新智元导读】斯坦福和MIT的研究团队推出了一种新的AI智能体推理框架ReCAP,在长上下文任务中全面超越了现有的主流框架ReAct,性能提升显著。ReCAP通过独特的递归树结构和三大机制,解决了大语言模型在复杂任务中常见的目标漂移、上下文断层和成本爆炸等问题。在多项基准测试中,ReCAP均取得了大幅领先的成绩,展现出强大的通用性和稳定性。尽管计算成本略有增加,但其在关键任务中的表现使其成为极具潜力的新一代通用推理架构。

自2022年ReAct框架提出以来,AI智能体推理领域便进入了百家争鸣的时代,各种复杂架构如雨后春笋般涌现。

然而,这些架构大多昙花一现,因其复杂的结构导致在更换评测基准时需要大幅修改示例,表现远不如ReAct稳定泛用,这也使得ReAct在过去三年中,成为了该领域事实上的主流与标杆。

但是,我们真的不能再做得更好了吗?

面对大模型在长上下文任务中走几步就忘的短期记忆顽疾,业界是否只能止步于此?

来自斯坦福大学与MIT的研究团队给出了肯定答案,正式发布的AI Agent推理新框架——ReCAP(递归上下文感知推理与规划),从真正意义上统一了序列推理和层级推理,在多种任务中全面战胜了ReAct,且继承了ReAct示例简单、高通用性,和即插即用的优势。


论文链接:https://arxiv.org/pdf/2510.23822

在严格遵循 pass@1(一次通过)的评测原则下,ReCAP在长序列具身任务Robotouille上相比ReAct基线取得了84.2%(同步)和112.5%(异步)的巨大性能提升。

长上下文任务的三大「死穴」

团队指出,当今大语言模型在执行复杂任务时普遍有三种问题:

  • 目标漂移(Goal Drift):执行几步后就逐渐忽略了原本的目标,使得执行结果与期望不符。

  • 上下文断层(Context Loss):高层的规划信息在长序列执行中丢失,导致高层思考与低层执行不协调。

  • 成本爆炸(Prompt Explosion):每次递归都重新铺开上下文示例和提示词,推理成本指数增长。


简单说,LLM就像一个短期记忆型天才,而主流推理框架各有局限:

  • 序列推理(例如Chain of Thoughts,ReAct)虽然上下文连贯,但常常因为任务太长导致目标漂移;

  • 层级推理(例如ADaPT,THREAD)将任务分解为子任务来明确目标,但给子任务单独分配上下文示例和提示词,导致上下文断层和成本爆炸。


ReCAP

让序列推理和层级推理有机结合


ReCAP的核心在于将一个有记忆、有反馈的递归树结构作为模型的工作记忆区,其三大机制环环相扣:

  • 计划前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一个完整的子任务列表,但只执行第一个子任务,完成后再动态优化后续计划。

  • 结构化父任务再注入(Consistent Multi-level Context and Structured Injection):整个执行流程只有一个上下文,由所有任务共享。每次子任务递归返回时,父任务会将自身的思考和计划再次注入上下文,使父任务在重新计划时可以参考上次的思维和执行结果,规划出能真正达成任务目标的底层操作。

  • 滑动窗口记忆(Sliding Window and Scalable Memory Efficiency):通过滑动窗口机制,在统一上下文中只保留最新关键历史,实现了内存占用可控的深度递归,从根本上杜绝了成本爆炸。


实验结果

长上下文任务性能大幅跃升


团队在多个典型长上下文推理基准上验证了ReCAP的效果。结果令人瞩目:

  • 在Robotouille(同步)上取得70%成功率,较ReAct(38%)提升84.2%

  • 在Robotouille(异步)上取得53%成功率,较ReAct(24%)提升112.5%

  • 在ALFWorld上取得91%成功率,稳定优于ReAct(84%)

  • 在SWE-bench Verified取得44.8%的成功率,优于ReAct基线(39.58%)

值得注意的是,团队在实验中始终秉持pass@1的实验原则,即不使用样本层面的重试、多数投票或者束搜索。这意味着ReCAP能在真实多步环境中,更好地保持目标一致性与执行连贯性——不仅「想得对」,还能「做得稳」。

ReCAP是除ReAct之外,又一个能够在具身推理、以及代码编辑这两种截然不同的任务上都取得稳健表现的通用推理架构。

论文中排除了THREAD、Reflexion等其他基线,因其在实验设置中难以稳定复现或与 pass@1 协议不兼容,这进一步凸显了ReCAP作为新一代通用推理基线的潜力。

优势与成本的权衡

任何强大的能力都伴随着成本。团队对此进行了透明分析:ReCAP的总计算成本约为ReAct的三倍。这主要来自于其核心的计划前瞻分解机制所额外需要的LLM调用。

然而,考虑到其在关键任务上带来的性能巨幅提升与目标一致性,这种成本的增加在对准确性要求高的实际应用中是可以接受的。这为开发者提供了一个清晰的性价比权衡选项。

递归,是通往通用智能的钥匙?

从人类思维到图灵机,递归始终是智能的底层逻辑。ReCAP的提出,可视为AI迈向通用推理系统的关键一步。

其潜力远不止于论文所验证的任务范畴。任何依赖复杂决策回路与长期上下文记忆的大型任务,都是ReCAP的理想应用场景。

例如在深度研究中自主遍历文献、整合多源信息并生成洞察报告;或在复杂软件工程中管理庞大代码库与依赖关系,推进需多步验证的系统项目。

长远来看,ReCAP的递归规划能力可以与空间智能相结合,解决更为复杂的现实世界问题。李飞飞教授近日指出,空间智能——即理解、推理并与三维世界交互的能力,是AI的下一个前沿。

ReCAP可以为具身智能机器人规划复杂的长期任务序列,而空间智能模型则负责处理实时感知与动作控制,二者结合实现机器人在动态环境中的自主规划与可靠执行。

随着代码的开源,一个更擅长长期规划、稳健执行的AI时代或许即将到来。

作者介绍

共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均为斯坦福大学工程学院计算机系硕士研究生

Alex Pentland教授,麻省理工学院媒体实验室 创始人之一,美国国家工程院院士,Toshiba Professor at MIT,斯坦福大学 HAI Fellow。

Jiaxin Pei博士,斯坦福大学博士后研究员,研究兴趣集中在大语言模型、人机交互、Agentic AI,即将前往得克萨斯大学奥斯汀分校任教。

参考资料:

https://arxiv.org/pdf/2510.23822

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊朗总统:不会在压力、威胁下进行谈判

上观新闻 浏览 625

足球报:北京市体育局与足协相关领导都会现场观战足协杯决赛

懂球帝 浏览 2112

状态不佳,阿森纳对阵森林上半场8脚射门0射正

懂球帝 浏览 1863

秦雯自曝袭警被抓后,让王家卫捞人找自己?

芊手若 浏览 2545

74岁张纪中与年轻妻子结婚,真的过得幸福吗

丹妮观 浏览 2635

避免引发恐慌 中东多国收紧社媒敏感信息管控

环球网资讯 浏览 1194

杭州男子家中一斤黄金消失找了两天后报警 结局太意外

环球网资讯 浏览 7896

加速推进!机器人板块传出大消息!

扬子晚报 浏览 2248

乐道汽车全年累计交付破10万台 成交均价升至25万+

网易汽车 浏览 1862

336万年薪请来的CEO,上任两个月就“失联”,高鑫零售的转型阵痛期

红星资本局 浏览 1668

拉什福德渴望永久转会愿大幅降薪!暗讽曼联,称巴萨让他重获新生

罗米的曼联博客 浏览 2582

魏牌再换CEO,哈弗一把手赵永坡兼任!长城冲击高端化需要更多牌?

时代周报 浏览 2049

我国又添“超级充电宝”:世界坝体最高抽水蓄能电站全面投产发电

IT之家 浏览 2325

塔帅:若顺利哈弗茨未来几天能进名单;我们想赢得重要奖杯

懂球帝 浏览 1911

日本拟引进乌无人机 其防卫预算首次突破9万亿日元

扬子晚报 浏览 3803

墨尔本新王者, 阿尔卡拉斯拍摄澳网冠军写真

懂球帝 浏览 1687

或2026年发布 全新大众T-ROC R渲染图曝光

车质网 浏览 2146

科技氛围浓郁 全新奥迪Q5L内饰正式公布

车质网 浏览 2131

寒武纪业绩“惊雷”:环比数据全线下滑,却意外点燃AI行情!

君临财富 浏览 2646

科学家刊文称:发现影响癌症进展的关键细胞

新华社 浏览 1746

千匹V8越野新豪华 捷尼赛思X Scorpio Concept

鳯眼观车 浏览 1408
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1