小米双模型正式开源:MiMo-V2.5-Pro 4小时自主构建macOS,长程任务与Token效率领跑
2026/04/29 08:52阅读量 7
小米正式发布MiMo-V2.5系列模型开源,包含Pro旗舰Agent、全模态基座及语音合成/识别模型。实测显示,MiMo-V2.5-Pro在4小时内无中断自主构建了包含54个原生应用的类macOS桌面系统,并在编译器开发等复杂工程中实现满分通过。该系列模型在长周期任务执行、模糊指令遵循及Token成本效率上表现突出,同时推出百万亿Token免费计划以扶持开发者生态。
事件概述
小米于2026年4月29日正式宣布开源MiMo-V2.5系列模型,涵盖四大核心组件:Pro旗舰Agent、全模态基座、TTS(文本转语音)及ASR(自动语音识别)。该系列模型主打长程任务处理与模糊指令遵循能力,标志着国产Agent技术进入第一梯队。
核心性能与实测表现
1. 长程任务自主执行能力
-
macOS系统构建实测:MiMo-V2.5-Pro在4小时内全程无中断、无人工接管,自主完成了类“macOS Sequoia”桌面系统的构建。
- 成果细节:实现了开机动画、窗口管理、Dock栏缩放、Spotlight搜索、明暗模式切换及Launchpad启动台等功能;内置54个原生应用(含计算器、日历、地图、备忘录及3D绘图工具Grapher),并集成了可真实浏览网页的Safari浏览器。
- 技术架构:基于React 18+TypeScript+Zustand+Tailwind CSS+Vite构建,包含68个组件,完整复刻了窗口状态机逻辑(拖拽、缩放、层级管理及Traffic Lights三色灯交互)。
-
复杂工程挑战:在北大SysY项目测试中,模型从零编写完整编译器(涵盖词法分析、语法分析、中间代码生成、RISC-V后端及性能优化)。
- 数据表现:耗时4.3小时,完成672次工具调用,最终获得233/233满分,展现了极强的稳定性与记忆保持能力。
2. 基准测试与成本效率
- 国际对标:在Coding Agent、SWE-Bench Pro、GDPVal-AA等权威基准测试中,成绩逼近Claude Opus 4.6、GPT-5.4等国际顶尖闭源模型,并大幅超越Gemini 3.1 Pro。
- Token效率优势:在ClawEval标准Agent任务中,单轨迹仅需约7万Token即可达到64%的Pass³通过率,相比竞品(普遍需12-18万Token)节省40%-60%成本。
- 上下文窗口:全系标配1M上下文窗口,支持超千次工具调用的长周期任务。
3. 语音与多模态能力
- TTS(语音合成):支持文本描述造音色与零样本克隆,无需参考音频即可生成目标声线。
- ASR(语音识别):达到中英SOTA水平,支持粤语、川语、吴语、闽南语识别及伴奏歌词精准转写,识别准确率高达99.999%。
开发者生态与支持计划
为降低使用门槛并加速生态建设,小米推出以下举措:
- 计费优化:1M上下文窗口采用简化计费规则,Pro版倍率从4x降至2x,标准版从2x降至1x;夜间(北京时间00:00~08:00)享8折优惠。
- 百万亿Token激励:面向全球个人开发者、团队及企业发放100万亿Token,完全免费,按需评估发放。
- 新兴框架扶持:提供MiMo Orbit计划,对全球新兴Agent框架提供限免接入及底层适配技术支持,降低集成门槛。
关键结论
MiMo-V2.5系列在短短4个月内完成从入场到开源第一梯队的跨越,其核心突破在于将长程任务执行力、模糊指令理解力与高Token效率相结合。通过全栈模型升级与激进的开发者扶持政策,小米试图在由国际巨头主导的AI生态中建立差异化优势。
