美团LongCat推出DiNA架构：将图像与语音统一为Token，打破离散视觉性能天花板

2026/04/03 14:24阅读量 52

美团LongCat团队发布新论文，提出名为DiNA（Discrete Native Autoregressive）的原生多模态架构，首次将文本、图像和语音统一映射为离散Token进行自回归预测。该方案通过自研的SAE编码器和dNaViT分词器解决了连续信号离散化的信息丢失问题，实验证明在大规模数据下离散模型性能可媲美甚至超越连续模型。基于此架构训练的LongCat-Next模型已在开源后展现出在视觉理解、生成及音频处理等多维度的领先能力。

事件概述

美团LongCat团队提出了一种全新的原生多模态架构 DiNA (Discrete Native Autoregressive)，彻底改变了传统大模型“语言底座+外挂感知”的拼凑模式。该架构的核心创新在于将文本、图像、语音全部转化为统一的离散Token序列，利用同一套自回归逻辑完成所有模态的理解与生成，实现了真正的底层统一。

核心技术与实现路径

1. DiNA 架构设计

DiNA 架构摒弃了传统的特征对齐或扩散模型拼接方式，其工作流程分为三个阶段：

输入侧：文本、图像、语音分别经过各自的 Tokenizer，转换为离散 Token。
中间层：所有 Token 汇入一个不区分模态的学习器，仅处理 Token 序列，完成推理与生成。
输出侧：处理后的 Token 通过 De-Tokenizer 还原为对应的模态内容。

这种设计使得模型在训练时共享参数、注意力机制和损失函数，显著提升了训练稳定性并降低了部署时的显存占用。

2. 视觉离散化突破：解决“信息丢失”难题

针对业界长期认为“离散视觉存在性能天花板”的观点，美团提出了两项关键技术：

语义对齐编码器 (SAE)：通过大规模视觉 - 语言监督学习，提取兼具高语义密度和多属性细节的特征，而非简单的对比学习。
自研视觉分词器 (dNaViT)：采用 8 层残差向量量化 (RVQ) 技术，分层打包轮廓、颜色、纹理等剩余信息，实现高达 28 倍 的像素空间压缩。配合双轨解码器（结构像素解码器 + 扩散像素细化器），确保任意分辨率下的无损还原。

3. 语音与文本的统一

语音处理沿用类似思路：使用 Whisper 编码器提取特征，经 RVQ 切分为离散 Token。LongCat-Next 支持并行与串行两种生成策略，模型可根据任务需求自动权衡速度与准确性。

关键实验结论

基于 LongCat-Flash-Lite MoE (总参数 685 亿，激活 30 亿) 训练的 LongCat-Next 模型，验证了以下核心发现：

离散视觉无天花板：在 OmniDocBench 等复杂文档基准测试中，LongCat-Next 超越了同类多模态模型及专用视觉模型。对照实验显示，离散模型的性能瓶颈并非来自离散化本身，而是数据规模；随着数据量扩大，离散模型与连续模型的性能差距持续缩小直至持平。
理解与生成协同：由于数学形式完全一致（均为预测下一个 Token），理解与生成不再割裂。在 LongText-Bench（生成）上得分 93.15，MathVista（理解）上得分 83.1，两者表现同步提升。
文本能力未折损：在 MMLU-Pro 和 C-Eval 等纯文本任务上，LongCat-Next 分别取得 77.02 和 86.80 的领先成绩，证明了多模态预训练不会削弱基础语言能力。

行业意义与资源

美团 LongCat 的这一探索验证了“模态消失”的可能性——当所有模态都成为同一种可预测的 Token 序列时，模型不再需要为不同模态设计独立机制。该研究不仅呼应了 Yann LeCun 关于统一多模态预训练的主张，更将其推向了工程落地。

目前，LongCat-Next 及其相关分词器已开源，提供了完整的工业级解决方案。

Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next

阅读原文详情