美团LongCat推出DiNA架构:将图像与语音统一为Token,打破离散视觉性能天花板

2026/04/03 14:24阅读量 2

美团LongCat团队发布新论文,提出名为DiNA(Discrete Native Autoregressive)的原生多模态架构,首次将文本、图像和语音统一映射为离散Token进行自回归预测。该方案通过自研的SAE编码器和dNaViT分词器解决了连续信号离散化的信息丢失问题,实验证明在大规模数据下离散模型性能可媲美甚至超越连续模型。基于此架构训练的LongCat-Next模型已在开源后展现出在视觉理解、生成及音频处理等多维度的领先能力。

事件概述

美团LongCat团队提出了一种全新的原生多模态架构 DiNA (Discrete Native Autoregressive),彻底改变了传统大模型“语言底座+外挂感知”的拼凑模式。该架构的核心创新在于将文本、图像、语音全部转化为统一的离散Token序列,利用同一套自回归逻辑完成所有模态的理解与生成,实现了真正的底层统一。

核心技术与实现路径

1. DiNA 架构设计

DiNA 架构摒弃了传统的特征对齐或扩散模型拼接方式,其工作流程分为三个阶段:

  • 输入侧:文本、图像、语音分别经过各自的 Tokenizer,转换为离散 Token。
  • 中间层:所有 Token 汇入一个不区分模态的学习器,仅处理 Token 序列,完成推理与生成。
  • 输出侧:处理后的 Token 通过 De-Tokenizer 还原为对应的模态内容。

这种设计使得模型在训练时共享参数、注意力机制和损失函数,显著提升了训练稳定性并降低了部署时的显存占用。

2. 视觉离散化突破:解决“信息丢失”难题

针对业界长期认为“离散视觉存在性能天花板”的观点,美团提出了两项关键技术:

  • 语义对齐编码器 (SAE):通过大规模视觉 - 语言监督学习,提取兼具高语义密度和多属性细节的特征,而非简单的对比学习。
  • 自研视觉分词器 (dNaViT):采用 8 层残差向量量化 (RVQ) 技术,分层打包轮廓、颜色、纹理等剩余信息,实现高达 28 倍 的像素空间压缩。配合双轨解码器(结构像素解码器 + 扩散像素细化器),确保任意分辨率下的无损还原。

3. 语音与文本的统一

语音处理沿用类似思路:使用 Whisper 编码器提取特征,经 RVQ 切分为离散 Token。LongCat-Next 支持并行与串行两种生成策略,模型可根据任务需求自动权衡速度与准确性。

关键实验结论

基于 LongCat-Flash-Lite MoE (总参数 685 亿,激活 30 亿) 训练的 LongCat-Next 模型,验证了以下核心发现:

  1. 离散视觉无天花板:在 OmniDocBench 等复杂文档基准测试中,LongCat-Next 超越了同类多模态模型及专用视觉模型。对照实验显示,离散模型的性能瓶颈并非来自离散化本身,而是数据规模;随着数据量扩大,离散模型与连续模型的性能差距持续缩小直至持平。
  2. 理解与生成协同:由于数学形式完全一致(均为预测下一个 Token),理解与生成不再割裂。在 LongText-Bench(生成)上得分 93.15,MathVista(理解)上得分 83.1,两者表现同步提升。
  3. 文本能力未折损:在 MMLU-Pro 和 C-Eval 等纯文本任务上,LongCat-Next 分别取得 77.02 和 86.80 的领先成绩,证明了多模态预训练不会削弱基础语言能力。

行业意义与资源

美团 LongCat 的这一探索验证了“模态消失”的可能性——当所有模态都成为同一种可预测的 Token 序列时,模型不再需要为不同模态设计独立机制。该研究不仅呼应了 Yann LeCun 关于统一多模态预训练的主张,更将其推向了工程落地。

目前,LongCat-Next 及其相关分词器已开源,提供了完整的工业级解决方案。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。