小米发布MiMo-V2.5-Pro-UltraSpeed:1T参数旗舰大模型单API推理速度超1000 TPS,通用GPU实现

2026/06/11 09:18阅读量 3

小米推出MiMo-V2.5-Pro-UltraSpeed高速版本大模型,总参数1T、支持1M上下文,在通用GPU上实现了单API推理速度超过1000 Tokens/s。实测中模型能在7秒内生成完整番茄钟Web应用,并高效支撑多Agent并行审阅等复杂任务。该模型通过混合滑动窗口注意力、FP4量化、DFlash推测解码及系统层常驻内核等全链路联合优化,打破了旗舰大模型“快、强、通用GPU不可兼得”的困局,为实时金融风控、高频交易、即时Coding等低延迟场景打开了商业化落地空间。

小米发布了MiMo-V2.5-Pro-UltraSpeed,这是其旗舰模型MiMo-V2.5-Pro的高速版本。该模型拥有1T总参数,支持1M上下文长度,在通用GPU(无需定制芯片)上实现了单API推理速度超过1000 Tokens/s,刷新了业界旗舰模型的推理速度纪录。

核心能力与实测表现

  • 用Claude Code接入该模型,生成一个包含500多行HTML的番茄钟Web应用(25分钟专注/5分钟短休息/15分钟长休息、自定义时长、历史记录、提示音等),从思考到输出完整代码仅耗时7秒。网页端显示输出阶段平均速度达1000+ TPS,峰值可达3300+ TPS。
  • 在Hermes框架下编写全栈局域网实时聊天室(Node.js + Express + WebSocket + SQLite),支持多用户、频道切换、代码高亮、消息引用、用户上下线提醒等功能,模型一次性生成完整代码并指导部署,运行表现符合要求。
  • 模拟多Agent剧本审阅场景:同时启动三位分析师(结构、人物、市场)对电影大纲并行审阅,再汇总由主Agent输出修订版。三个子Agent在两分钟内完成各自分析,并指出了原大纲中第二幕中点和转折点缺失、主角缺乏主动欲望、配角功能不独立等问题,最终输出结构完整的修订版大纲。

技术架构:全链路Co-design
小米从模型层、引擎层、系统层三个层面进行联合优化,使1T参数模型在通用GPU上达到千级TPS。

  • 模型层:采用Hybrid SWA(混合滑动窗口注意力)架构,将注意力机制拆分为两级,仅对最近上下文进行精细计算,较早内容压缩后低开销参与后续步骤,整体计算量降至全注意力的约1/7。同时对Expert模块引入FP4量化,将并行Expert参数压缩至4bit,减少显存占用和读写压力,并通过量化感知训练控制误差;注意力模块和Router模块保持高精度。
  • 引擎层:采用DFlash方案改造传统Speculative Decoding,将草稿模型沿时间轴逐token串行生成改为对一整块位置同时并行加工,主模型对整批候选token集中审核,合格整体接入、不合格局部返工。草稿模型基于SWA架构并经过密集长链路数据训练,保证并行产出候选的高合格率。
  • 系统层:与TileRT团队协作,通过Persistent Kernel(常驻内核)将经常连续执行的关键步骤封装为长期驻留GPU的主计算线,避免每批请求反复冷启动;通过Warp Specialization(线程束专化)使数据搬运、当前批处理、结果输出三个环节同时并行运转,减少闲置等待。

商业价值与行业影响
该模型打破了大模型“快、强、通用GPU无法兼得”的不可能三角。此前业界公开的最快推理速度约为400B模型跑出400 TPS,且往往以削减参数量为代价导致智商下降。MiMo-V2.5-Pro-UltraSpeed在保持1T参数旗舰能力的前提下,将单API推理速度提升至1000+ TPS,使得旗舰大模型能够接入高频量化交易(毫秒级)、金融实时反欺诈(0.1秒内)、广告RTB竞价(100毫秒窗口)等对延迟极度敏感的实时业务。在日常开发场景中,全栈项目重构的等待时间从8-12分钟压缩至几十秒,复杂报告处理也从单次提问变为实时交互协作。

小米的全链路推理优化方案具有平台可迁移性,换代通用GPU仅需适配升级,速度和成本优势可平滑平移。结合小米模型登顶全球开源榜首、MiMo-2.5系列全面调价以及本次高速模型发布,系统性降低了旗舰大模型商业化的速度、智力和成本三重障碍。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。