面壁智能发布MiniCPM-o 4.5:首个端侧可跑全双工全模态模型,消费级显卡即可运行
2026/04/28 22:50阅读量 9
面壁智能联合清华大学等机构发布MiniCPM-o 4.5技术报告,该模型是业界首个端到端全双工全模态大模型,支持视频、音频、文本的并行输入与连续输出。模型基于Omni-Flow流式框架,仅需12GB显存的消费级显卡(如RTX 5070)即可流畅运行,下载量已突破25万。其在视觉理解、实时交互及多语言OCR等评测中表现优异,并提供了在线Demo、API及端侧安装包供开发者使用。
事件概述
面壁智能联合OpenBMB开源社区、清华大学THUNLP实验室和THUMAI实验室,正式发布MiniCPM-o 4.5技术报告。该模型作为业界首个端到端全双工全模态大模型,打破了传统半双工(对讲机式)交互的限制,实现了用户与AI的并行交流、实时环境感知及自由打断插话。
核心技术与架构
Omni-Flow流式全模态框架
模型的核心依托于面壁智能与清华大学联合研发的Omni-Flow框架,其关键特性包括:
- 毫秒级统一时间轴:通过时分复用机制,将视觉、音频、文本等多模态信息流精准对齐并重组为周期性时序组。
- 高频刷新认知:以每秒一次的频率持续刷新环境认知,无需依赖外部VAD语音活动检测工具,原生支持持续感知与即时响应。
- TAIL时间对齐方案:自研交错语音生成方案,解决流式对话中的卡顿与滞后问题,确保语音自然流畅。
轻量化参数设计
MiniCPM-o 4.5采用约9B参数的轻量化端到端设计,由四大模块高效协同:
- 视觉编码器:0.4B参数 SigLIP-ViT,负责环境视觉感知。
- 音频编码器:0.3B参数 Whisper-Medium,完成声音信息采集。
- 基座大模型:8B参数 Qwen3-8B LLM,承担核心思考与语义理解。
- 语音解码器:0.3B参数轻量级Token解码器,实现语音生成。
性能表现与部署能力
端侧部署门槛大幅降低
- 硬件要求:实测最低仅需12GB显存的显卡(如RTX 5070)即可流畅运行全双工模式(RTF 0.4)。
- 设备兼容:支持Mac M1-M5 Max系列设备(建议内存>16G),并已完成llama.cpp量化优化。
- 推理效率:INT4量化版本解码速度可达212 tokens/s,较同类模型提速40%以上。
权威评测数据
- 视觉能力:OpenCompass得分77.6,MMBench英文得分87.6,整体对标Gemini 2.5 Flash。
- 动态交互:在LiveSports-3K-CC全双工视频基准测试中胜率达54.4%,优于Gemini 2.5 Flash及专用流式视频模型。
- 语音质量:中文CER、英文WER错误率低于CosyVoice2,支持简易参考音频的声音克隆与角色扮演。
- 文档解析:延续MiniCPM-V优势,支持30余种语言的OCR文档解析及高帧率视频处理。
落地应用与生态
开放渠道
- 普通用户:提供无需注册的在线体验Demo,以及适配Windows/macOS的桌面端一键安装包(Comni)。
- 开发者:免费开放全双工实时WebSocket API,完整开源Demo前后端代码及Linux部署方案。
应用场景
- 生活服务:运动、烹饪时的沉浸式陪伴与主动提醒。
- 无障碍公益:为视障人群提供实时环境播报与视觉辅助。
- 智能车载:监测路况与驾驶员状态,主动预警风险。
- 具身智能:作为机器人核心大脑,适配智能家居与工业场景。
当前局限
团队在报告中指出,长时间交互的稳定性、主动行为的丰富性以及对复杂场景的鲁棒性仍有提升空间,但已验证了“全双工全模态、端侧可部署、全栈开源”路线的可行性。
资源入口
- 技术报告:GitHub链接
- 在线体验:PC端 / 移动端
- Demo仓库:GitHub Demo
