MiniMax M2.7发布：从“吃虾”到让模型自我进化，SRE与多智能体协作能力质变

2026/03/18 21:25阅读量 33

MiniMax正式发布M2.7大模型，在指令遵循、多智能体原生协作及代码工程能力上实现显著跃升，SWE-Pro测试正确率达56.22%，办公场景评测超越GPT-5.3。该模型具备自主构建Agent Harness的能力，能独立完成故障排查、代码优化甚至自我迭代训练，标志着大模型从被动使用工具转向主动研发进化的新阶段。目前M2.7已在MiniMax Agent和开放平台全量上线。

事件概述

MiniMax于2026年3月18日正式发布全新大模型M2.7。距离上一版本M2.5仅过去一个月，此次更新重点强化了复杂任务处理、Agent团队协作以及工程落地能力。M2.7已在全平台上线，标志着大模型开始具备自主构建工具和自我进化的能力。

核心性能与功能亮点

1. 多智能体协作与指令遵循

原生协作能力：无需外部框架即可组建Agent Teams，模型能稳定锚定身份并自主决策，将长流程任务拆解执行。
测试数据：
- 在包含40个复杂技能的场景下，指令遵循率保持97%。
- 在MM-Claw（龙虾测试）中正确率达62.7%，直逼Claude Sonnet 4.6。

2. 代码与工程能力（SRE级）

能力升级：从单纯代码生成拓展至代码重构、防漏洞及复杂排障。在SWE-Pro测试中以**56.22%**的正确率追平GPT-5.3-Codex。
实战表现：
- 自动排障：面对告警可自动关联监控、分析调用链、验证数据库，精准定位如漏索引等根本原因。
- 安全修复：懂得在生产环境下使用非阻塞方式（如PostgreSQL的CONCURRENTLY语法）建立索引以止血，避免锁表风险，并能直接生成符合合并请求规范的迁移代码。

3. 办公自动化与人机交互

Office场景：支持Excel、Word、PPT的复杂多轮修改。在GDPval-AA评测中ELO评分位列开源第一，超越GPT-5.3。实测案例显示其能自主比对研报、构建营收预测模型，并一键生成透视表、调研报告及汇报PPT。
角色扮演：深度适配OpenClaw长期记忆框架，支持十种语言且跨语言交流时人设统一。官方开源了OpenRoom交互系统，提供赛博朋克风格的Web GUI空间，实现角色与环境的实时视觉互动。

技术突破：迈向自我进化

M2.7的核心突破在于具备了自主构建Agent Harness（智能体工具箱）的能力，实现了从“使用人类工具”到“制造工具”的跨越：

自主实验与迭代：研究员仅需给出初始想法，M2.7即可自主运行强化学习实验，自动监控日志、排查故障、修改代码并提交测试。在内部Harness代码优化测试中，通过反复试错使模型效果提升30%。
自训练与优化：利用短时记忆、自反馈和自优化机制，M2.7能自主训练机器学习模型。在MLE Lite竞赛题（22道高难度题目）中，经过24小时自主优化后，最终斩获9金5银1铜的成绩。

行业意义

当前行业多聚焦于适配现有开源框架（如OpenClaw），而M2.7展示了让模型成为自身研发链条一环的可能性。这种主动进化的能力被视为决定下一代大模型核心竞争力的分水岭，MiniMax M2.7已率先开启模型自我迭代的新纪元。

阅读原文详情