小米发布MiMo-V2.5-Pro-UltraSpeed：1T参数旗舰大模型单API推理速度超1000 TPS，通用GPU实现

2026/06/11 09:18阅读量 3

小米推出MiMo-V2.5-Pro-UltraSpeed高速版本大模型，总参数1T、支持1M上下文，在通用GPU上实现了单API推理速度超过1000 Tokens/s。实测中模型能在7秒内生成完整番茄钟Web应用，并高效支撑多Agent并行审阅等复杂任务。该模型通过混合滑动窗口注意力、FP4量化、DFlash推测解码及系统层常驻内核等全链路联合优化，打破了旗舰大模型“快、强、通用GPU不可兼得”的困局，为实时金融风控、高频交易、即时Coding等低延迟场景打开了商业化落地空间。

小米发布了MiMo-V2.5-Pro-UltraSpeed，这是其旗舰模型MiMo-V2.5-Pro的高速版本。该模型拥有1T总参数，支持1M上下文长度，在通用GPU（无需定制芯片）上实现了单API推理速度超过1000 Tokens/s，刷新了业界旗舰模型的推理速度纪录。

核心能力与实测表现

用Claude Code接入该模型，生成一个包含500多行HTML的番茄钟Web应用（25分钟专注/5分钟短休息/15分钟长休息、自定义时长、历史记录、提示音等），从思考到输出完整代码仅耗时7秒。网页端显示输出阶段平均速度达1000+ TPS，峰值可达3300+ TPS。
在Hermes框架下编写全栈局域网实时聊天室（Node.js + Express + WebSocket + SQLite），支持多用户、频道切换、代码高亮、消息引用、用户上下线提醒等功能，模型一次性生成完整代码并指导部署，运行表现符合要求。
模拟多Agent剧本审阅场景：同时启动三位分析师（结构、人物、市场）对电影大纲并行审阅，再汇总由主Agent输出修订版。三个子Agent在两分钟内完成各自分析，并指出了原大纲中第二幕中点和转折点缺失、主角缺乏主动欲望、配角功能不独立等问题，最终输出结构完整的修订版大纲。

技术架构：全链路Co-design
小米从模型层、引擎层、系统层三个层面进行联合优化，使1T参数模型在通用GPU上达到千级TPS。

模型层：采用Hybrid SWA（混合滑动窗口注意力）架构，将注意力机制拆分为两级，仅对最近上下文进行精细计算，较早内容压缩后低开销参与后续步骤，整体计算量降至全注意力的约1/7。同时对Expert模块引入FP4量化，将并行Expert参数压缩至4bit，减少显存占用和读写压力，并通过量化感知训练控制误差；注意力模块和Router模块保持高精度。
引擎层：采用DFlash方案改造传统Speculative Decoding，将草稿模型沿时间轴逐token串行生成改为对一整块位置同时并行加工，主模型对整批候选token集中审核，合格整体接入、不合格局部返工。草稿模型基于SWA架构并经过密集长链路数据训练，保证并行产出候选的高合格率。
系统层：与TileRT团队协作，通过Persistent Kernel（常驻内核）将经常连续执行的关键步骤封装为长期驻留GPU的主计算线，避免每批请求反复冷启动；通过Warp Specialization（线程束专化）使数据搬运、当前批处理、结果输出三个环节同时并行运转，减少闲置等待。

商业价值与行业影响
该模型打破了大模型“快、强、通用GPU无法兼得”的不可能三角。此前业界公开的最快推理速度约为400B模型跑出400 TPS，且往往以削减参数量为代价导致智商下降。MiMo-V2.5-Pro-UltraSpeed在保持1T参数旗舰能力的前提下，将单API推理速度提升至1000+ TPS，使得旗舰大模型能够接入高频量化交易（毫秒级）、金融实时反欺诈（0.1秒内）、广告RTB竞价（100毫秒窗口）等对延迟极度敏感的实时业务。在日常开发场景中，全栈项目重构的等待时间从8-12分钟压缩至几十秒，复杂报告处理也从单次提问变为实时交互协作。

小米的全链路推理优化方案具有平台可迁移性，换代通用GPU仅需适配升级，速度和成本优势可平滑平移。结合小米模型登顶全球开源榜首、MiMo-2.5系列全面调价以及本次高速模型发布，系统性降低了旗舰大模型商业化的速度、智力和成本三重障碍。

阅读原文详情

准备好启动您的定制项目了吗？