MiniMax M2.7发布:从“吃虾”到让模型自我进化,SRE与多智能体协作能力质变
MiniMax正式发布M2.7大模型,在指令遵循、多智能体原生协作及代码工程能力上实现显著跃升,SWE-Pro测试正确率达56.22%,办公场景评测超越GPT-5.3。该模型具备自主构建Agent Harness的能力,能独立完成故障排查、代码优化甚至自我迭代训练,标志着大模型从被动使用工具转向主动研发进化的新阶段。目前M2.7已在MiniMax Agent和开放平台全量上线。
事件概述
MiniMax于2026年3月18日正式发布全新大模型M2.7。距离上一版本M2.5仅过去一个月,此次更新重点强化了复杂任务处理、Agent团队协作以及工程落地能力。M2.7已在全平台上线,标志着大模型开始具备自主构建工具和自我进化的能力。
核心性能与功能亮点
1. 多智能体协作与指令遵循
- 原生协作能力:无需外部框架即可组建Agent Teams,模型能稳定锚定身份并自主决策,将长流程任务拆解执行。
- 测试数据:
- 在包含40个复杂技能的场景下,指令遵循率保持97%。
- 在MM-Claw(龙虾测试)中正确率达62.7%,直逼Claude Sonnet 4.6。
2. 代码与工程能力(SRE级)
- 能力升级:从单纯代码生成拓展至代码重构、防漏洞及复杂排障。在SWE-Pro测试中以**56.22%**的正确率追平GPT-5.3-Codex。
- 实战表现:
- 自动排障:面对告警可自动关联监控、分析调用链、验证数据库,精准定位如漏索引等根本原因。
- 安全修复:懂得在生产环境下使用非阻塞方式(如PostgreSQL的
CONCURRENTLY语法)建立索引以止血,避免锁表风险,并能直接生成符合合并请求规范的迁移代码。
3. 办公自动化与人机交互
- Office场景:支持Excel、Word、PPT的复杂多轮修改。在GDPval-AA评测中ELO评分位列开源第一,超越GPT-5.3。实测案例显示其能自主比对研报、构建营收预测模型,并一键生成透视表、调研报告及汇报PPT。
- 角色扮演:深度适配OpenClaw长期记忆框架,支持十种语言且跨语言交流时人设统一。官方开源了OpenRoom交互系统,提供赛博朋克风格的Web GUI空间,实现角色与环境的实时视觉互动。
技术突破:迈向自我进化
M2.7的核心突破在于具备了自主构建Agent Harness(智能体工具箱)的能力,实现了从“使用人类工具”到“制造工具”的跨越:
- 自主实验与迭代:研究员仅需给出初始想法,M2.7即可自主运行强化学习实验,自动监控日志、排查故障、修改代码并提交测试。在内部Harness代码优化测试中,通过反复试错使模型效果提升30%。
- 自训练与优化:利用短时记忆、自反馈和自优化机制,M2.7能自主训练机器学习模型。在MLE Lite竞赛题(22道高难度题目)中,经过24小时自主优化后,最终斩获9金5银1铜的成绩。
行业意义
当前行业多聚焦于适配现有开源框架(如OpenClaw),而M2.7展示了让模型成为自身研发链条一环的可能性。这种主动进化的能力被视为决定下一代大模型核心竞争力的分水岭,MiniMax M2.7已率先开启模型自我迭代的新纪元。
