MiniMax M2.7实测:模型深度参与迭代,Agent能力迈入第一梯队
MiniMax发布M2.7模型,首次实现模型深度参与自身迭代过程,并推出Agent Harness框架以压缩研发流程。实测显示,该模型在软件工程(SWE Bench Pro)及长流程任务执行(MM-ClawBench)中表现优异,接近行业头部水平,但在复杂科研推理方面仍有提升空间。通过家庭群聊模拟、自主编程贪吃蛇及英伟达财报分析等场景测试,验证了其在多角色一致性维持、代码自纠错及专业级文档生成方面的强大能力。
事件概述
MiniMax于2026年3月19日上线M2.7模型,官方宣称这是首个“深度参与迭代自己”的模型。该版本重点强化了Agent Harness能力,旨在将原本需要多人协作的研发流程压缩进一个由模型主导的持续循环系统中,使模型从单纯的执行者转变为具备部分决策能力的系统组件。
核心性能数据与基准测试
根据官方发布的Benchmark成绩,M2.7在不同维度展现出差异化优势:
- 工程执行类:在SWE Bench Pro(真实代码库问题定位与修复)和VIBE-Pro(端到端项目交付)测试中,M2.7已进入第一梯队,表现接近甚至超越部分一线模型,证明其具备从需求到交付的完整产出能力。
- 长流程执行类:在MM-ClawBench(考察多步骤任务中的工具调用与上下文保持)中,M2.7接近头部模型水平,表明其已跨过“把活干完”的关键门槛。
- 研究推理类:在MLE-Bench(侧重算法工程与系统性建模)等偏重复杂推理的任务上,M2.7仍有进步空间,目前仍是头部模型的绝对优势区间。
实测场景验证
评测团队设计了四场从低难度到高难度的实战测试,具体结果如下:
1. 多角色一致性模拟(家庭群聊)
- 场景:构建高仿微信界面,让AI同时扮演父亲(暴躁退休干部)、母亲(唠叨社区大妈)、弟弟(宅家游戏青年)及用户本人进行群聊。
- 表现:模型成功维持了四个角色的独立人格、说话习惯及相互关系(如父女、兄妹互动)。在遇到API调用失败或角色身份设定BUG时,模型能迅速自我诊断并修复,展现了极强的角色一致性与交互自然度。
2. Agent自主编程(霓虹灯时钟)
- 场景:在仅提供基础文件读写和执行工具的IDE环境中,要求模型从零开发霓虹灯数字时钟。
- 表现:模型流畅完成了需求理解、方案规划、代码编写、自检及交付全流程。ReAct(推理+行动)循环运行高效,仅需5轮即完成任务,显示出对Agent工作流的成熟适配。
3. 复杂逻辑调试(贪吃蛇游戏)
- 场景:要求模型编写包含Canvas绘制、碰撞检测、计分系统及重新开始功能的贪吃蛇游戏,并记录开发过程。
- 表现:模型在首轮尝试中因JSON格式错误导致工具调用失败,但能在下一轮自动修正并重新输出正确格式。最终在第5轮完成所有功能,体现了面对复杂任务时的自主调试与纠错能力。
4. 专业级金融分析(英伟达财报)
- 场景:基于提供的英伟达FY2026财报数据,要求生成投行风格深度报告、交互式财务仪表盘(含图表与滑块)及12页演示文稿。
- 表现:模型准确理解了复杂的金融数据结构,生成了符合专业标准的可视化内容与分析报告,展现了强大的Office自动化能力及多格式输出驾驭能力。
关键结论与展望
- 形态转变:M2.7标志着大模型从“问答工具”向“系统搭档”的转变。模型不再仅负责单点输出,而是能进入系统持续运转,自主推进任务、发现问题并修正。
- 技术路径:MiniMax通过OpenRoom等开源项目探索人与Agent的全新交互方式,强调对话即驱动、实时视觉反馈及环境交互。
- 现存挑战:尽管Agent能力显著提升,但在长时间运行的Agent场景中,工具调用格式错误等细节不稳定性仍可能被放大,且复杂抽象推理能力尚未完全达到顶尖水平。
