商汤开源SenseNova-U1:统一架构实现图像理解与生成,挑战闭源模型

2026/04/29 12:27阅读量 2

商汤科技开源了全新架构的理解生成统一模型SenseNova-U1,该模型采用NEO-unify架构,无需视觉编码器和变分自编码器即可在单一网络中同时完成图像理解与生成。U1在连续性图文创作、高密度信息图生成及具备物理常识推理等方面表现突出,8B参数版本即可在端侧运行,38B MoE版本能力更强。目前两个规格模型已全网开源,并配套了包含87种版式的技能包供开发者直接调用。

事件概述

商汤科技(SenseTime)近日开源了名为 SenseNova-U1 的全新多模态模型。该模型主打“不卷参数卷架构”,通过统一的底层设计实现了图像理解与生成的深度融合,旨在解决传统多模态模型中语义保留与像素细节难以兼顾的痛点。

核心技术与架构创新

SenseNova-U1 的核心在于其独创的 NEO-unify 架构,彻底改变了以往“视觉编码器(VE)+ 变分自编码器(VAE)+ 适配器”的拼接模式:

  • 原生统一:移除了独立的视觉编码器和生成器,模型直接输入像素并输出像素,理解和生成在同一套 Transformer 主干中完成。
  • 双轨并行:文本采用自回归方式,视觉采用像素流匹配,两套目标函数在同一个学习框架下训练。
  • 连续图文创作:由于上下文共享,模型能够像人类一样边思考边画图,实现文字与图片在单次输出中的自然交叠,确保主体形象在长序列中保持一致。

关键能力表现

尽管小尺寸版本仅含 8B 参数,SenseNova-U1 在多项指标上逼近主流商用闭源模型,并在以下场景展现出独特优势:

  • 高密度信息图与信息可视化:能精准处理文字密集排版、图文交错场景,如自动生成简历海报、太阳系图解、产品爆炸图等,且版式与配色逻辑清晰。
  • 连续性教程与分镜:支持从食材准备到成品装盘的完整步骤演示,或漫画分镜的连贯生成,角色特征不会随步骤增加而失真。
  • 物理常识推理:首创图文交错的思维链(Chain of Thought)。例如,在预测“热茶一小时后的状态”时,模型会先推理光影变化、茶叶沉降及冷凝现象,再基于物理规律生成图像;对香蕉成熟过程的模拟也体现了对叶绿素分解等常识的理解。

模型规格与部署

SenseNova-U1 提供两种规格以满足不同需求:

  • SenseNova-U1-8B-MoT:80 亿参数,支持端侧部署。
  • SenseNova-U1-3AB-MoT:总参数量 380 亿的混合专家(MoE)架构,提供更强的生成与推理能力。

配合商汤自研推理栈(LightLLM 负责理解,LightX2V 负责生成),在单节点 H100/H200 环境下,生成一张 2048×2048 分辨率的图片端到端耗时约 9 秒。

开源生态与局限性

  • 开源情况:模型已在 GitHub 和 Hugging Face 全网开源,仓库地址为 https://github.com/OpenSenseNova/SenseNova-U1
  • 技能包(Skills):配套开源了 SenseNova-Skills,其中 sn-infographic 模块内置 87 种版式和 66 种风格,可集成至 Agent 系统(如 OpenClaw)直接调用。
  • 已知局限:商汤在 README 中明确标注了当前限制,包括上下文长度上限 32K、复杂场景下人物细节稳定性不足、长文本渲染偶有拼写错误,以及连续性图文生成功能尚处于 Beta 阶段。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。