MiniMax M3实测：识别74个Logo、复现论文、理解语言学奥赛视频，开源模型首度集齐长上下文/多模态/Coding

2026/06/02 23:50阅读量 2

MiniMax M3开源模型上线，凭借1M长上下文、原生多模态和代码能力，在SWE-Bench Pro取得59%成绩。实测中成功复现ICLR 2026论文、识别英伟达PPT中74家厂商Logo、基于视频理解复现语言学奥赛解题过程，并制作交互式打卡地图。技术层面采用MSA稀疏注意力、交互式用户模拟器和图文混合预训练，成为首个同时具备这三项能力的开源模型，成本仅为顶尖闭源模型的十分之一。

事件概述

MiniMax M3模型发布后，其Token Plan计费方式引发讨论，官方迅速调整了周用量限额。但更受关注的是模型能力本身：M3是国内首个同时实现长上下文（1M token）、原生多模态和代码能力的开源模型，在闭源模型中仅Claude Opus、GPT-5.5、Gemini 3.1能做到。M3在SWE-Bench Pro上跑出59%，超过GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7。同时推出配套工具MiniMax Code，对标Claude Code。

核心能力实测

论文复现：M3连续运行12小时，独立复现一篇ICLR 2025 Outstanding Paper（关于大模型微调学习动力学），产出18次commit和23张实验图表，准确复现核心结论。另一任务中复现ICLR 2026论文《Polar Express》（优化器改进），M3自行推导出与论文完全一致的多项式系数。
多模态与信息检索：输入一张包含74个Logo的英伟达PPT（DSX AI生态系统），M3正确识别全部公司并生成交互式瀑布流网页，卡片可点击查看公司介绍。此外，基于“黄仁勋北京美食打卡”的模糊指令，M3自主搜索信息、调用Leaflet和高德地图瓦片，标记出9个美食打卡点，并区分非美食地点。
视频理解与复现：给定一段近2小时的语言学奥赛试题讲解视频（B站链接），M3先用ffmpeg压缩，再理解视频内容，生成交互式讲题网页，完整复现第一问的推导步骤，并额外整理了解题方法论。

技术亮点

长上下文（MSA）：采用新型稀疏注意力机制MiniMax Sparse Attention，以KV块为外层循环，访存连续、硬件利用率高，1M上下文下每token计算量降至上代1/20，decoding加速超15倍。架构简洁，优于同期其他方案（如MoBA、NSA等）。
代码与Agent训练：构建交互式用户模拟器框架，用LLM模拟真实开发者的协作行为（需求反复修改、约束变更等），让模型在训练阶段接触接近生产的交互场景。MiniMax是商业侧首个显式使用该框架训练大规模前沿模型的公司。
原生多模态：从预训练第一步就做图文混合训练，文本和视觉语义空间融合，路线与Google Gemini一致。预训练数据规模达100万亿token量级，发现交错数据（interleaved data）比纯图文对数据更能提升模型效果。

值得关注

MiniMax M3是首个在开源模型中同时实现长代码任务、多模态复杂文档处理和原生多模态这三项能力的模型。其综合能力已接近顶尖闭源模型，而成本仅为十分之一。对于需要长程Coding、多轮协作开发、图文混合处理的开发者而言，M3提供了一个值得认真考虑的选项。

阅读原文详情

事件概述

核心能力实测

技术亮点

值得关注

准备好启动您的定制项目了吗？