商汤发布原生统一多模态模型 SenseNova U1,轻量版开源对标商业级水准
2026/04/29 11:15阅读量 2
商汤科技正式发布并开源基于 NEO-unify 架构的 SenseNova U1 系列原生理解生成统一模型,彻底摒弃传统拼接式架构,实现语言与视觉信息的统一表征。本次开源的轻量版(Lite)包含 8B 和 A3B 两种规格,在图像理解、生成及复杂信息图任务中达到同量级 SOTA 水平,部分能力超越大型闭源模型。该架构支持单次调用即可输出连续性图文创作,为具身智能和高效多模态应用提供了新范式。
事件概述
商汤科技于 2026 年 4 月 29 日正式发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该模型基于今年三月自主研发的 NEO-unify 架构,旨在打破多模态模型中视觉编码器(VE)与变分自编码器(VAE)分离的传统模式,构建统一的表征空间,实现从“模态集成”向“原生统一”的范式跨越。
核心技术与架构创新
- 去拼接化设计:彻底摒弃主流的拼接式架构,不再依赖视觉编码器与语言骨干通过适配器进行“接力”处理,而是将语言与视觉信息作为统一复合体直接建模。
- 统一表征空间:深入每一层计算中融合不同模态信息,使理解与生成能力同步增强,在保留语义丰富度的同时维持像素级视觉保真度。
- 效率优势:相比传统架构需堆叠大参数以弥补中间转译损耗,SenseNova U1 通过紧凑的内部表征降低信息流转延迟,实现了“以小搏大”。
开源版本与性能表现
本次开源发布的是 SenseNova U1 Lite 轻量版系列,包含两个规格:
- SenseNova-U1-8B-MoT:基于稠密骨干网络。
- SenseNova-U1-A3B-MoT:基于混合专家(MoE)骨干网络。
基准测试表现:
- 在图像理解、图像生成与编辑、空间智能和视觉推理等多项基准测试中,均达到同量级开源模型的 SOTA(State of the Art)水平。
- 8B-MoT 规格在通用图像生成质量上比肩 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型闭源模型,并在推理响应速度上具有显著优势。
- 在极具挑战性的复杂信息图生成任务中,展现出对排版和文字控制的商业级水准。
关键应用场景:连续性图文创作
凭借原生统一架构,SenseNova U1 实现了业内首创的连续性图文创作输出:
- 单次调用:仅需一次单模型调用即可完成高质量作品输出,大幅提升效率。
- 高一致性:在统一表征空间中保持上下文完整,确保图像间风格高度一致。
- 案例验证:
- 步骤规划:如“五分熟牛排做法”,能分步思考并输出对应的高一致性图示。
- 连续创作:如绘制钢铁侠图案,能从草稿出发逐步完成高精度图像,精准保持前一步的结构与细节。
未来展望与资源获取
- 具身智能潜力:该模型具备深度理解物理世界布局与精细关系的能力,未来可为机器人提供“具身大脑”,实现从感知、推演到执行的全闭环。
- 后续计划:商汤表示将继续沿技术路径扩展规模,推出更大参数的 U1 系列模型,致力于以更低计算成本达到国际顶尖水平。
开源地址:
- GitHub: https://github.com/OpenSenseNova/SenseNova-U1
- Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1
- Skill 库与 Prompt 指南:https://github.com/OpenSenseNova/SenseNova-Skills
