面壁智能发布MiniCPM-o 4.5：首个端侧可跑全双工全模态模型，消费级显卡即可运行

2026/04/28 22:50阅读量 9

面壁智能联合清华大学等机构发布MiniCPM-o 4.5技术报告，该模型是业界首个端到端全双工全模态大模型，支持视频、音频、文本的并行输入与连续输出。模型基于Omni-Flow流式框架，仅需12GB显存的消费级显卡（如RTX 5070）即可流畅运行，下载量已突破25万。其在视觉理解、实时交互及多语言OCR等评测中表现优异，并提供了在线Demo、API及端侧安装包供开发者使用。

事件概述

面壁智能联合OpenBMB开源社区、清华大学THUNLP实验室和THUMAI实验室，正式发布MiniCPM-o 4.5技术报告。该模型作为业界首个端到端全双工全模态大模型，打破了传统半双工（对讲机式）交互的限制，实现了用户与AI的并行交流、实时环境感知及自由打断插话。

核心技术与架构

Omni-Flow流式全模态框架

模型的核心依托于面壁智能与清华大学联合研发的Omni-Flow框架，其关键特性包括：

毫秒级统一时间轴：通过时分复用机制，将视觉、音频、文本等多模态信息流精准对齐并重组为周期性时序组。
高频刷新认知：以每秒一次的频率持续刷新环境认知，无需依赖外部VAD语音活动检测工具，原生支持持续感知与即时响应。
TAIL时间对齐方案：自研交错语音生成方案，解决流式对话中的卡顿与滞后问题，确保语音自然流畅。

轻量化参数设计

MiniCPM-o 4.5采用约9B参数的轻量化端到端设计，由四大模块高效协同：

视觉编码器：0.4B参数 SigLIP-ViT，负责环境视觉感知。
音频编码器：0.3B参数 Whisper-Medium，完成声音信息采集。
基座大模型：8B参数 Qwen3-8B LLM，承担核心思考与语义理解。
语音解码器：0.3B参数轻量级Token解码器，实现语音生成。

性能表现与部署能力

端侧部署门槛大幅降低

硬件要求：实测最低仅需12GB显存的显卡（如RTX 5070）即可流畅运行全双工模式（RTF 0.4）。
设备兼容：支持Mac M1-M5 Max系列设备（建议内存>16G），并已完成llama.cpp量化优化。
推理效率：INT4量化版本解码速度可达212 tokens/s，较同类模型提速40%以上。

权威评测数据

视觉能力：OpenCompass得分77.6，MMBench英文得分87.6，整体对标Gemini 2.5 Flash。
动态交互：在LiveSports-3K-CC全双工视频基准测试中胜率达54.4%，优于Gemini 2.5 Flash及专用流式视频模型。
语音质量：中文CER、英文WER错误率低于CosyVoice2，支持简易参考音频的声音克隆与角色扮演。
文档解析：延续MiniCPM-V优势，支持30余种语言的OCR文档解析及高帧率视频处理。

落地应用与生态

开放渠道

普通用户：提供无需注册的在线体验Demo，以及适配Windows/macOS的桌面端一键安装包（Comni）。
开发者：免费开放全双工实时WebSocket API，完整开源Demo前后端代码及Linux部署方案。

应用场景

生活服务：运动、烹饪时的沉浸式陪伴与主动提醒。
无障碍公益：为视障人群提供实时环境播报与视觉辅助。
智能车载：监测路况与驾驶员状态，主动预警风险。
具身智能：作为机器人核心大脑，适配智能家居与工业场景。

当前局限

团队在报告中指出，长时间交互的稳定性、主动行为的丰富性以及对复杂场景的鲁棒性仍有提升空间，但已验证了“全双工全模态、端侧可部署、全栈开源”路线的可行性。

资源入口

技术报告：GitHub链接
在线体验：PC端 / 移动端
Demo仓库：GitHub Demo

阅读原文详情