商汤发布原生统一多模态模型 SenseNova U1，轻量版开源对标商业级水准

2026/04/29 11:15阅读量 2

商汤科技正式发布并开源基于 NEO-unify 架构的 SenseNova U1 系列原生理解生成统一模型，彻底摒弃传统拼接式架构，实现语言与视觉信息的统一表征。本次开源的轻量版（Lite）包含 8B 和 A3B 两种规格，在图像理解、生成及复杂信息图任务中达到同量级 SOTA 水平，部分能力超越大型闭源模型。该架构支持单次调用即可输出连续性图文创作，为具身智能和高效多模态应用提供了新范式。

事件概述

商汤科技于 2026 年 4 月 29 日正式发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该模型基于今年三月自主研发的 NEO-unify 架构，旨在打破多模态模型中视觉编码器（VE）与变分自编码器（VAE）分离的传统模式，构建统一的表征空间，实现从“模态集成”向“原生统一”的范式跨越。

核心技术与架构创新

去拼接化设计：彻底摒弃主流的拼接式架构，不再依赖视觉编码器与语言骨干通过适配器进行“接力”处理，而是将语言与视觉信息作为统一复合体直接建模。
统一表征空间：深入每一层计算中融合不同模态信息，使理解与生成能力同步增强，在保留语义丰富度的同时维持像素级视觉保真度。
效率优势：相比传统架构需堆叠大参数以弥补中间转译损耗，SenseNova U1 通过紧凑的内部表征降低信息流转延迟，实现了“以小搏大”。

开源版本与性能表现

本次开源发布的是 SenseNova U1 Lite 轻量版系列，包含两个规格：

SenseNova-U1-8B-MoT：基于稠密骨干网络。
SenseNova-U1-A3B-MoT：基于混合专家（MoE）骨干网络。

基准测试表现：

在图像理解、图像生成与编辑、空间智能和视觉推理等多项基准测试中，均达到同量级开源模型的 SOTA（State of the Art）水平。
8B-MoT 规格在通用图像生成质量上比肩 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型闭源模型，并在推理响应速度上具有显著优势。
在极具挑战性的复杂信息图生成任务中，展现出对排版和文字控制的商业级水准。

关键应用场景：连续性图文创作

凭借原生统一架构，SenseNova U1 实现了业内首创的连续性图文创作输出：

单次调用：仅需一次单模型调用即可完成高质量作品输出，大幅提升效率。
高一致性：在统一表征空间中保持上下文完整，确保图像间风格高度一致。
案例验证：
- 步骤规划：如“五分熟牛排做法”，能分步思考并输出对应的高一致性图示。
- 连续创作：如绘制钢铁侠图案，能从草稿出发逐步完成高精度图像，精准保持前一步的结构与细节。

未来展望与资源获取

具身智能潜力：该模型具备深度理解物理世界布局与精细关系的能力，未来可为机器人提供“具身大脑”，实现从感知、推演到执行的全闭环。
后续计划：商汤表示将继续沿技术路径扩展规模，推出更大参数的 U1 系列模型，致力于以更低计算成本达到国际顶尖水平。

开源地址：

GitHub: https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1
Skill 库与 Prompt 指南：https://github.com/OpenSenseNova/SenseNova-Skills

阅读原文详情

事件概述

核心技术与架构创新

开源版本与性能表现

关键应用场景：连续性图文创作

未来展望与资源获取

准备好启动您的定制项目了吗？