美团开源原生多模态大模型LongCat-Next，重构视觉与语音的AI表达范式

2026/03/27 12:16阅读量 53

3月27日，美团发布并全面开源了原生多模态大模型LongCat-Next及其核心组件离散原生分辨率视觉分词器（dNaViT）。该模型摒弃了传统以语言为中心的拼凑架构，将图像、语音与文本统一映射为同源离散Token。通过纯粹的“下一个Token预测”范式，LongCat-Next实现了视觉与语音作为AI“原生母语”的统一处理。

事件概述

3月27日，美团正式对外发布并全面开源其最新研发的原生多模态大模型 LongCat-Next，同时开放了其核心组件——离散原生分辨率视觉分词器（dNaViT）。

核心技术创新

架构突破：LongCat-Next打破了当前大模型普遍采用的以“语言为中心”的传统拼凑式架构。
统一表征：模型将图像、语音与文本三种模态统一映射为同源的离散 Token（Tokenization），消除了不同模态间的异构壁垒。
训练范式：采用纯粹的“下一个Token预测”（Next Token Prediction, NTP）范式进行训练和推理。
能力定义：在该架构下，视觉与语音不再是辅助输入，而是成为了AI的“原生母语”，实现了多模态信息的原生融合。

关键组件

dNaViT (Discrete Native Resolution Visual Tokenizer)：作为LongCat-Next的核心组件，该分词器支持离散原生分辨率的视觉编码，是支撑上述多模态统一架构的基础设施。

阅读原文详情

事件概述

核心技术创新

关键组件

准备好启动您的定制项目了吗？