商汤发布原生统一多模态模型 SenseNova U1,轻量版开源对标商业级水准

2026/04/29 11:15阅读量 2

商汤科技正式发布并开源基于 NEO-unify 架构的 SenseNova U1 系列原生理解生成统一模型,彻底摒弃传统拼接式架构,实现语言与视觉信息的统一表征。本次开源的轻量版(Lite)包含 8B 和 A3B 两种规格,在图像理解、生成及复杂信息图任务中达到同量级 SOTA 水平,部分能力超越大型闭源模型。该架构支持单次调用即可输出连续性图文创作,为具身智能和高效多模态应用提供了新范式。

事件概述

商汤科技于 2026 年 4 月 29 日正式发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该模型基于今年三月自主研发的 NEO-unify 架构,旨在打破多模态模型中视觉编码器(VE)与变分自编码器(VAE)分离的传统模式,构建统一的表征空间,实现从“模态集成”向“原生统一”的范式跨越。

核心技术与架构创新

  • 去拼接化设计:彻底摒弃主流的拼接式架构,不再依赖视觉编码器与语言骨干通过适配器进行“接力”处理,而是将语言与视觉信息作为统一复合体直接建模。
  • 统一表征空间:深入每一层计算中融合不同模态信息,使理解与生成能力同步增强,在保留语义丰富度的同时维持像素级视觉保真度。
  • 效率优势:相比传统架构需堆叠大参数以弥补中间转译损耗,SenseNova U1 通过紧凑的内部表征降低信息流转延迟,实现了“以小搏大”。

开源版本与性能表现

本次开源发布的是 SenseNova U1 Lite 轻量版系列,包含两个规格:

  • SenseNova-U1-8B-MoT:基于稠密骨干网络。
  • SenseNova-U1-A3B-MoT:基于混合专家(MoE)骨干网络。

基准测试表现

  • 在图像理解、图像生成与编辑、空间智能和视觉推理等多项基准测试中,均达到同量级开源模型的 SOTA(State of the Art)水平。
  • 8B-MoT 规格在通用图像生成质量上比肩 Qwen-Image 2.0 ProSeedream 4.5 等大型闭源模型,并在推理响应速度上具有显著优势。
  • 在极具挑战性的复杂信息图生成任务中,展现出对排版和文字控制的商业级水准。

关键应用场景:连续性图文创作

凭借原生统一架构,SenseNova U1 实现了业内首创的连续性图文创作输出

  • 单次调用:仅需一次单模型调用即可完成高质量作品输出,大幅提升效率。
  • 高一致性:在统一表征空间中保持上下文完整,确保图像间风格高度一致。
  • 案例验证
    • 步骤规划:如“五分熟牛排做法”,能分步思考并输出对应的高一致性图示。
    • 连续创作:如绘制钢铁侠图案,能从草稿出发逐步完成高精度图像,精准保持前一步的结构与细节。

未来展望与资源获取

  • 具身智能潜力:该模型具备深度理解物理世界布局与精细关系的能力,未来可为机器人提供“具身大脑”,实现从感知、推演到执行的全闭环。
  • 后续计划:商汤表示将继续沿技术路径扩展规模,推出更大参数的 U1 系列模型,致力于以更低计算成本达到国际顶尖水平。

开源地址

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。