阿里发布Qwen3.5-Omni：多模态性能超越Gemini-3.1 Pro，支持Vibe Coding与实时交互

2026/03/30 22:21阅读量 70

3月30日，阿里云发布新一代全模态大模型Qwen3.5-Omni，在音视频理解、识别及交互等215项第三方测试中取得SOTA（最佳性能），综合表现超越Gemini-3.1 Pro。该模型原生支持图片、视频、语音、文字的全模态输入输出，并自然涌现出“音视频Vibe Coding”能力，用户可通过口述需求直接生成复杂产品代码。目前模型已在阿里云百炼平台上线Plus、Flash、Light三种API版本，每百万Tokens输入成本低于0.8元。

事件概述

3月30日，阿里云正式发布千问新一代全模态大模型 Qwen3.5-Omni。该模型基于海量文本、视觉及超过1亿小时的音视频数据进行原生多模态预训练，采用混合注意力 MoE 架构，旨在实现图片、视频、语音、文字等全模态内容的无缝输入与输出。

核心性能与对比

基准测试表现：在音视频理解、跨模态推理、Agent 任务等 215 项 第三方性能测试中取得 SOTA（State of the Art，当前最佳）成绩。具体包括 DailyOmni、QualcommInteractive、Omni Cloze 等聚焦视听交互的测试，以及 WenetSpeech（嘈杂环境抗干扰）和 Multi-Lingual (30lang)（多语言语音生成质量）测试，其得分均大幅领先或显著优于 Gemini-3.1 Pro 及 Gemini-2.5-Pro-TTS。
语言能力：支持 113 种 语言及方言的语音识别（涵盖毛利语、海南方言等小众语种）及 36 种 语言及方言的语音生成。
实时交互：具备高情商对话意图理解能力，能区分有效回应与随口附和；支持根据指令自由调节语音语调，并基于创新的 ARIA 技术 提升生成语音的自然度与稳定性。

关键技术创新

音视频 Vibe Coding：模型自然涌现出通过音视频进行编程的能力。用户只需打开摄像头对着草图口述需求（包含复杂产品逻辑），模型即可自主生成带有复杂 UI 的产品原型界面（APP、网页、游戏等），实现“动动嘴即可编程”。
专业领域生产力：可对视频画面主体、人物关系、对话逻辑及情绪起伏进行细粒度拆解，自动完成视频章节切片与时间戳标注。支持超过 10 小时 的音频输入处理，将繁琐的视频后期梳理工作缩短至秒级。
工具调用：面对实时提问（如天气查询），模型可自主判断并调用外部工具以确保回复的准确性与时效性。

商业化与应用

部署方式：普通用户可通过 Qwen Chat 免费体验；开发者和企业可通过 阿里云百炼 平台调用。Plus、Flash、Light 三种 API 版本已上线。
成本优势：每百万 Tokens 输入成本不到 0.8 元，约为 Gemini-3.1 Pro 价格的 1/10。
行业覆盖：目前已广泛应用于短视频/直播平台、游戏、自媒体等行业，服务互联网、金融、消费电子及汽车等重点行业的超 100 万家客户。

阅读原文详情

事件概述

核心性能与对比

关键技术创新

商业化与应用

准备好启动您的定制项目了吗？