美团开源原生多模态大模型LongCat-Next,重构视觉与语音的AI表达范式
3月27日,美团发布并全面开源了原生多模态大模型LongCat-Next及其核心组件离散原生分辨率视觉分词器(dNaViT)。该模型摒弃了传统以语言为中心的拼凑架构,将图像、语音与文本统一映射为同源离散Token。通过纯粹的“下一个Token预测”范式,LongCat-Next实现了视觉与语音作为AI“原生母语”的统一处理。
事件概述
3月27日,美团正式对外发布并全面开源其最新研发的原生多模态大模型 LongCat-Next,同时开放了其核心组件——离散原生分辨率视觉分词器(dNaViT)。
核心技术创新
- 架构突破:LongCat-Next打破了当前大模型普遍采用的以“语言为中心”的传统拼凑式架构。
- 统一表征:模型将图像、语音与文本三种模态统一映射为同源的离散 Token(Tokenization),消除了不同模态间的异构壁垒。
- 训练范式:采用纯粹的“下一个Token预测”(Next Token Prediction, NTP)范式进行训练和推理。
- 能力定义:在该架构下,视觉与语音不再是辅助输入,而是成为了AI的“原生母语”,实现了多模态信息的原生融合。
关键组件
- dNaViT (Discrete Native Resolution Visual Tokenizer):作为LongCat-Next的核心组件,该分词器支持离散原生分辨率的视觉编码,是支撑上述多模态统一架构的基础设施。
