斯坦福英伟达联合提出RecursiveMAS:多智能体跳过文本对话,推理速度提升2.4倍
2026/05/21 07:54阅读量 3
UIUC、斯坦福、英伟达、MIT联合提出RecursiveMAS,让多智能体在潜空间中直接传递向量表征,而非通过自然语言文本交流。实测推理速度提升1.2~2.4倍,Token消耗降低34.6%~75.6%,准确率平均提升8.3%。该方法仅训练约1300万参数(0.31%),主干模型权重冻结,训练成本降低50%以上。
事件概述
多智能体系统(MAS)的传统协作方式依赖自然语言文本传递信息,每次沟通需将内部思维“翻译”成文字再解码回来,导致大量时间与Token浪费。UIUC、斯坦福、英伟达、MIT的研究团队提出RecursiveMAS,让智能体在潜空间(latent space)中直接传递连续向量表征,跳过显式文本生成与解析步骤,从而大幅提升推理效率。
核心信息
- 方法名称:RecursiveMAS(基于递归语言模型的MAS架构)
- 关键组件:RecursiveLink——一个轻量级两层残差模块,负责将某模型最后一层的隐状态转换并传递至下一模型的嵌入空间。分为Inner RecursiveLink(单智能体内循环热身)和Outer RecursiveLink(多智能体间循环训练)。
- 训练策略:主干模型权重完全冻结,仅训练RecursiveLink模块,总参数量约1300万(占可训练参数的0.31%),训练成本比全量微调降低50%以上。训练分两阶段:内层循环热身(各智能体独立训练,并行进行)和外层循环联合训练(所有智能体串联,以最终输出为优化目标,共享梯度)。
- 实验设置:在9个基准测试(数学、科学医学、代码生成、搜索问答等)和4种协作模式(顺序推理、混合专家、知识蒸馏、协商式工具调用)上评估,使用模型包括Qwen、Llama-3、Gemma3、Mistral。对比基线包括LoRA、全量微调、Mixture-of-Agents、TextGrad、LoopLM以及强制文本通信的Recursive-TextMAS。
- 主要结果:
- 准确率:平均提升8.3%,在AIME2025上比TextGrad高18.1%,在AIME2026上高13%。
- 推理速度:端到端提升1.2倍至2.4倍,且随递归轮次增加而增长(第1轮1.2倍,第2轮1.9倍,第3轮2.4倍)。
- Token消耗:与Recursive-TextMAS相比降低34.6%至75.6%(第3轮降低75.6%)。
- 理论支撑:论文证明了递归训练中梯度稳定性,且运行时复杂度优于传统文本型MAS。
- 研究意义:挑战了“智能体间必须通过自然语言传递信息”的默认假设,将单模型中已验证的递归扩展策略引入多智能体系统,开辟了“加深递归深度”而非增加智能体数量的新Scaling方向。
值得关注
- 当前结果由作者自报,尚未有独立团队完成复现。
- 异构智能体兼容性:Outer RecursiveLink理论上支持跨架构潜表征传递,但论文未详细披露跨模型代际的实现细节。
- 可解释性下降:隐空间向量不可读,在需审计的生产环境中可能带来合规挑战。
- 论文链接:https://arxiv.org/abs/2604.25917
