MiniMax M3实测:识别74个Logo、复现论文、理解语言学奥赛视频,开源模型首度集齐长上下文/多模态/Coding
2026/06/02 23:50阅读量 2
MiniMax M3开源模型上线,凭借1M长上下文、原生多模态和代码能力,在SWE-Bench Pro取得59%成绩。实测中成功复现ICLR 2026论文、识别英伟达PPT中74家厂商Logo、基于视频理解复现语言学奥赛解题过程,并制作交互式打卡地图。技术层面采用MSA稀疏注意力、交互式用户模拟器和图文混合预训练,成为首个同时具备这三项能力的开源模型,成本仅为顶尖闭源模型的十分之一。
事件概述
MiniMax M3模型发布后,其Token Plan计费方式引发讨论,官方迅速调整了周用量限额。但更受关注的是模型能力本身:M3是国内首个同时实现长上下文(1M token)、原生多模态和代码能力的开源模型,在闭源模型中仅Claude Opus、GPT-5.5、Gemini 3.1能做到。M3在SWE-Bench Pro上跑出59%,超过GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7。同时推出配套工具MiniMax Code,对标Claude Code。
核心能力实测
- 论文复现:M3连续运行12小时,独立复现一篇ICLR 2025 Outstanding Paper(关于大模型微调学习动力学),产出18次commit和23张实验图表,准确复现核心结论。另一任务中复现ICLR 2026论文《Polar Express》(优化器改进),M3自行推导出与论文完全一致的多项式系数。
- 多模态与信息检索:输入一张包含74个Logo的英伟达PPT(DSX AI生态系统),M3正确识别全部公司并生成交互式瀑布流网页,卡片可点击查看公司介绍。此外,基于“黄仁勋北京美食打卡”的模糊指令,M3自主搜索信息、调用Leaflet和高德地图瓦片,标记出9个美食打卡点,并区分非美食地点。
- 视频理解与复现:给定一段近2小时的语言学奥赛试题讲解视频(B站链接),M3先用ffmpeg压缩,再理解视频内容,生成交互式讲题网页,完整复现第一问的推导步骤,并额外整理了解题方法论。
技术亮点
- 长上下文(MSA):采用新型稀疏注意力机制MiniMax Sparse Attention,以KV块为外层循环,访存连续、硬件利用率高,1M上下文下每token计算量降至上代1/20,decoding加速超15倍。架构简洁,优于同期其他方案(如MoBA、NSA等)。
- 代码与Agent训练:构建交互式用户模拟器框架,用LLM模拟真实开发者的协作行为(需求反复修改、约束变更等),让模型在训练阶段接触接近生产的交互场景。MiniMax是商业侧首个显式使用该框架训练大规模前沿模型的公司。
- 原生多模态:从预训练第一步就做图文混合训练,文本和视觉语义空间融合,路线与Google Gemini一致。预训练数据规模达100万亿token量级,发现交错数据(interleaved data)比纯图文对数据更能提升模型效果。
值得关注
MiniMax M3是首个在开源模型中同时实现长代码任务、多模态复杂文档处理和原生多模态这三项能力的模型。其综合能力已接近顶尖闭源模型,而成本仅为十分之一。对于需要长程Coding、多轮协作开发、图文混合处理的开发者而言,M3提供了一个值得认真考虑的选项。
