小米双模型正式开源:MiMo-V2.5-Pro 4小时自主构建macOS,长程任务与Token效率领跑

2026/04/29 08:52阅读量 7

小米正式发布MiMo-V2.5系列模型开源,包含Pro旗舰Agent、全模态基座及语音合成/识别模型。实测显示,MiMo-V2.5-Pro在4小时内无中断自主构建了包含54个原生应用的类macOS桌面系统,并在编译器开发等复杂工程中实现满分通过。该系列模型在长周期任务执行、模糊指令遵循及Token成本效率上表现突出,同时推出百万亿Token免费计划以扶持开发者生态。

事件概述

小米于2026年4月29日正式宣布开源MiMo-V2.5系列模型,涵盖四大核心组件:Pro旗舰Agent、全模态基座、TTS(文本转语音)及ASR(自动语音识别)。该系列模型主打长程任务处理与模糊指令遵循能力,标志着国产Agent技术进入第一梯队。

核心性能与实测表现

1. 长程任务自主执行能力

  • macOS系统构建实测:MiMo-V2.5-Pro在4小时内全程无中断、无人工接管,自主完成了类“macOS Sequoia”桌面系统的构建。

    • 成果细节:实现了开机动画、窗口管理、Dock栏缩放、Spotlight搜索、明暗模式切换及Launchpad启动台等功能;内置54个原生应用(含计算器、日历、地图、备忘录及3D绘图工具Grapher),并集成了可真实浏览网页的Safari浏览器。
    • 技术架构:基于React 18+TypeScript+Zustand+Tailwind CSS+Vite构建,包含68个组件,完整复刻了窗口状态机逻辑(拖拽、缩放、层级管理及Traffic Lights三色灯交互)。
  • 复杂工程挑战:在北大SysY项目测试中,模型从零编写完整编译器(涵盖词法分析、语法分析、中间代码生成、RISC-V后端及性能优化)。

    • 数据表现:耗时4.3小时,完成672次工具调用,最终获得233/233满分,展现了极强的稳定性与记忆保持能力。

2. 基准测试与成本效率

  • 国际对标:在Coding Agent、SWE-Bench Pro、GDPVal-AA等权威基准测试中,成绩逼近Claude Opus 4.6、GPT-5.4等国际顶尖闭源模型,并大幅超越Gemini 3.1 Pro。
  • Token效率优势:在ClawEval标准Agent任务中,单轨迹仅需约7万Token即可达到64%的Pass³通过率,相比竞品(普遍需12-18万Token)节省40%-60%成本
  • 上下文窗口:全系标配1M上下文窗口,支持超千次工具调用的长周期任务。

3. 语音与多模态能力

  • TTS(语音合成):支持文本描述造音色与零样本克隆,无需参考音频即可生成目标声线。
  • ASR(语音识别):达到中英SOTA水平,支持粤语、川语、吴语、闽南语识别及伴奏歌词精准转写,识别准确率高达99.999%。

开发者生态与支持计划

为降低使用门槛并加速生态建设,小米推出以下举措:

  • 计费优化:1M上下文窗口采用简化计费规则,Pro版倍率从4x降至2x,标准版从2x降至1x;夜间(北京时间00:00~08:00)享8折优惠。
  • 百万亿Token激励:面向全球个人开发者、团队及企业发放100万亿Token,完全免费,按需评估发放。
  • 新兴框架扶持:提供MiMo Orbit计划,对全球新兴Agent框架提供限免接入及底层适配技术支持,降低集成门槛。

关键结论

MiMo-V2.5系列在短短4个月内完成从入场到开源第一梯队的跨越,其核心突破在于将长程任务执行力、模糊指令理解力与高Token效率相结合。通过全栈模型升级与激进的开发者扶持政策,小米试图在由国际巨头主导的AI生态中建立差异化优势。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。