火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

美团发布原生多模态模型LongCat-Next：视觉与语音成为AI新母语

2026/04/03 15:15阅读量 36

美团正式推出原生多模态大模型LongCat-Next，该模型将视觉和语音作为核心输入模态，实现了从单一文本处理向多模态理解的跨越。这一发布标志着AI技术正从“翻译”人类语言转向直接理解视觉与听觉信息，为复杂场景下的智能交互提供了新的基础能力。

事件概述

美团发布了其最新一代原生多模态大模型 LongCat-Next。该模型的核心突破在于不再依赖传统的文本中间层进行转换，而是直接将视觉（图像/视频）和语音作为模型的“母语”进行原生处理。

核心信息

模型名称：LongCat-Next
发布方：美团
技术特性：
- 原生多模态架构：摒弃了先转写后处理的旧范式，支持视觉与语音信号的端到端直接理解。
- 跨模态融合：能够同时处理和理解图像内容与语音指令，实现更自然的交互逻辑。
战略意义：标志着AI能力从单一的文本生成向多感官感知演进，旨在解决真实世界中视觉与听觉并存的复杂任务。

值得关注

此次发布体现了行业对多模态大模型技术路线的深化，即让AI具备像人类一样直接“看”和“听”的能力，而非仅仅通过文字描述来间接理解世界。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例