美团发布原生多模态模型LongCat-Next:视觉与语音成为AI新母语

2026/04/03 15:15阅读量 2

美团正式推出原生多模态大模型LongCat-Next,该模型将视觉和语音作为核心输入模态,实现了从单一文本处理向多模态理解的跨越。这一发布标志着AI技术正从“翻译”人类语言转向直接理解视觉与听觉信息,为复杂场景下的智能交互提供了新的基础能力。

事件概述

美团发布了其最新一代原生多模态大模型 LongCat-Next。该模型的核心突破在于不再依赖传统的文本中间层进行转换,而是直接将视觉(图像/视频)语音作为模型的“母语”进行原生处理。

核心信息

  • 模型名称:LongCat-Next
  • 发布方:美团
  • 技术特性
    • 原生多模态架构:摒弃了先转写后处理的旧范式,支持视觉与语音信号的端到端直接理解。
    • 跨模态融合:能够同时处理和理解图像内容与语音指令,实现更自然的交互逻辑。
  • 战略意义:标志着AI能力从单一的文本生成向多感官感知演进,旨在解决真实世界中视觉与听觉并存的复杂任务。

值得关注

此次发布体现了行业对多模态大模型技术路线的深化,即让AI具备像人类一样直接“看”和“听”的能力,而非仅仅通过文字描述来间接理解世界。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。