彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
商汤科技联合南洋理工大学发布了名为NEO-unify的多模态模型架构,该架构彻底摒弃了传统的视觉编码器(VE)和变分自编码器(VAE),实现了真正的原生、统一且端到端的学习。通过创新的混合变换器(MoT)架构,该2B规模模型在无需预训练先验的情况下,同时展现了高质量的语义理解与像素级细节恢复能力。实验表明,NEO-unify在图像重建、编辑及数据训练效率上均优于传统范式,标志着多模态AI正从“组件堆叠”迈向“本质统一”。
2026-03-07 12:39:02 来源:[量子位](https://www.qbitai.com/) 2B规模吊打传统范式 > 允中 发自 凹非寺 > > > 量子位 | 公众号 QbitAI 多模态大模型的研发范式,正在被彻底重构。 今天,**商汤科技**联合**南洋理工大学**发布了最新技术成果:**NEO-unify**。 这是一套真正实现“原生、统一、端到端”的多模态模型架构,其最核心的突破在于: 彻底砍掉了长期以来行业依赖的**视觉编码器(VE)和变分自编码器(VAE)**。不再通过“组件拼凑”来实现感知与生成,回归第一性原理,直接以近乎无损的像素和文字作为原生输入。 通过创新的**混合变换器(Mixture-of-Transformer, MoT)**架构,该模型在同一个体系内打通了视觉与语言的“理解+生成”双向能力。 技术要点一览: * **无编码器设计**:越过视觉表征争论,摆脱预训练先验与规模定律瓶颈; * **MoT架构**:统一实现视觉与语言的深度融合; * **高效利用**:在保持高保真细节恢复的同时,显著提升了数据与算力的利用效率。 这套架构的出现,标志着多模态AI正在从“模态连接”进化为**“原生统一智能体”**。 其无编码器、端到端、多模态统一学习的新路径,也为未来实现**跨模态认知与生成一体化**的智能系统奠定了基础。 当前多模态智能架构困境 ----------- 长期以来,多模态研究领域普遍遵循着一种默认范式: * 视觉编码器(Vision Encoder, VE)负责感知与理解; * 变分自编码器(Variational Autoencoder, VAE)用于内容生成。 这种架构虽然在初期推动了领域发展,但也在感知与生成之间划下了一道天然的鸿沟。 为了弥合这一裂痕,近期业界涌现出一系列尝试构建**“共享编码器”**的研究工作。然而,这种折衷方案往往陷入了新的结构性设计权衡。 面对这一挑战,研究视角开始回归第一性原理:**能否构建一个直接处理原生输入(即像素本身与文字本身)的一体化模型?** 基于这一思考,商汤科技联合南洋理工大学提出了一种全新的架构范式:**NEO-unify(preview)**。 作为一个原生、统一、端到端的多模态模型架构,NEO-unify不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。 最关键的是:**不需要VE,也不需要VAE,NEO-unify实现了多模态处理的真正归一**。 NEO-unify原生一体化架构新范式 ------------------- NEO-unify第一次迈向真正的端到端统一框架,能够直接从近乎无损的信息输入中学习,并由模型自身塑造内部表征空间。  首先,引入**近似无损的视觉接口**,用于统一图像的输入与输出表示。 其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架构,使理解与生成能够在同一体系中协同进行。 最终,通过**统一学习框架**实现跨模态训练:文本采用自回归交叉熵目标,视觉通过像素流匹配进行优化。 模型效果 ---- **1、定量结果分析**   **2、生图效果展示**   技术发现 ---- **1、无编码器设计能够同时保留抽象语义与细粒度表征** **图像重建任务** 该团队先前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同样能够学习到丰富的语义表征。 在此基础上,他们进一步观察到一个有趣的现象:即使在**冻结理解分支**的情况下,独立的生成分支仍然能够从表示中抽取并恢复**细粒度的视觉细节**。 基于这一发现,团队训练了**NEO-unify(2B)**。 在**初步9万步预训练**后,模型在MS COCO 2017上取得**31.56 PSNR**和**0.85 SSIM**,而Flux VAE的对应指标为**32.65**和**0.91**。 这一结果表明,即使不依赖预训练VE或VAE,**近似无损的原生输入**仍能够同时支持高质量的语义理解与像素级细节保真。 △域外图像重建(2B NEO-unify,理解分支冻结) **图像编辑任务** 据此,团队进一步开展探索:NEO-unify将所有全模态条件信息统一输入到理解分支,而生成分支仅负责生成新的图像。 即使在**冻结理解分支**的情况下,NEO-unify(2B) 仍展现出强大的图像编辑能力,同时显著减少了输入图像令牌的数量。 在使用开源生成与图像编辑数据集并进行**初步6万步混合训练**后,模型在ImgEdit基准上取得**3.32**的成绩,且理解分支在整个训练过程中保持冻结。 △小规模数据验证(2B NEO-unify,理解分支冻结) △ImgEdit提示词编辑(2B NEO-unify,理解分支冻结) 2、无编码器架构与MoT主干高度协同大幅降低内在冲突 -------------------------- 借助预训练的理解分支与生成分支,NEO-unify使用相同的中期训练(MT)与监督微调(SFT)数据进行联合训练。 即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在MoT主干中协同提升,整体冲突极小。  3、无编码器架构,展现更高数据训练效率 ------------------- 此外,团队先进行了web-scale预训练,随后在多样且高质量的数据语料上依次进行中期训练(MT) 和 监督微调(SFT)。 与Bagel模型相比,NEO-unify展现出**更高的数据训练效率**,在使用**更少训练token**的情况下取得了更优的性能。  迈向原生统一的下一代智能范式 -------------- NEO-unify的意义不止于一次模型架构的创新,它实际上预示着多模态智能正从“组件堆叠”迈向“本质统一”。 这种范式的演进,正在勾勒出通往下一代智能形态的清晰路径: * 感知与生成交织的闭环; * 全模态与深层视觉推理; * 空间智能与世界模型的涌现。 …… 这标志着一条全新的技术路线图正在展开: 模型不再在模态之间进行转换,而是能够**原生地跨模态思考**。 在这一愿景下,多模态AI不再只是连接不同系统,而是构建一个**从未被割裂的、高度集成的统一智能体**,并让所需能力从其内部自然涌现。 据悉,目前相关的研发工作正处于规模化扩张与持续迭代的关键期。一系列基于该架构的模型成果与开源贡献,将在近期陆续向业界发布。 **Hugging Face地址:** https://huggingface.co/blog/sensenova/neo-unify **官方博客地址:** https://www.sensetime.com/en/news-detail/51170542?categoryId=1072 https://www.sensetime.com/cn/news-detail/51170543?categoryId=72 _版权所有,未经授权不得以任何形式转载及使用,违者必究。_
