阿里发布Qwen3.5-Omni:多模态性能超越Gemini-3.1 Pro,支持Vibe Coding与实时交互
2026/03/30 22:21阅读量 2
3月30日,阿里云发布新一代全模态大模型Qwen3.5-Omni,在音视频理解、识别及交互等215项第三方测试中取得SOTA(最佳性能),综合表现超越Gemini-3.1 Pro。该模型原生支持图片、视频、语音、文字的全模态输入输出,并自然涌现出“音视频Vibe Coding”能力,用户可通过口述需求直接生成复杂产品代码。目前模型已在阿里云百炼平台上线Plus、Flash、Light三种API版本,每百万Tokens输入成本低于0.8元。
事件概述
3月30日,阿里云正式发布千问新一代全模态大模型 Qwen3.5-Omni。该模型基于海量文本、视觉及超过1亿小时的音视频数据进行原生多模态预训练,采用混合注意力 MoE 架构,旨在实现图片、视频、语音、文字等全模态内容的无缝输入与输出。
核心性能与对比
- 基准测试表现:在音视频理解、跨模态推理、Agent 任务等 215 项 第三方性能测试中取得 SOTA(State of the Art,当前最佳)成绩。具体包括 DailyOmni、QualcommInteractive、Omni Cloze 等聚焦视听交互的测试,以及 WenetSpeech(嘈杂环境抗干扰)和 Multi-Lingual (30lang)(多语言语音生成质量)测试,其得分均大幅领先或显著优于 Gemini-3.1 Pro 及 Gemini-2.5-Pro-TTS。
- 语言能力:支持 113 种 语言及方言的语音识别(涵盖毛利语、海南方言等小众语种)及 36 种 语言及方言的语音生成。
- 实时交互:具备高情商对话意图理解能力,能区分有效回应与随口附和;支持根据指令自由调节语音语调,并基于创新的 ARIA 技术 提升生成语音的自然度与稳定性。
关键技术创新
- 音视频 Vibe Coding:模型自然涌现出通过音视频进行编程的能力。用户只需打开摄像头对着草图口述需求(包含复杂产品逻辑),模型即可自主生成带有复杂 UI 的产品原型界面(APP、网页、游戏等),实现“动动嘴即可编程”。
- 专业领域生产力:可对视频画面主体、人物关系、对话逻辑及情绪起伏进行细粒度拆解,自动完成视频章节切片与时间戳标注。支持超过 10 小时 的音频输入处理,将繁琐的视频后期梳理工作缩短至秒级。
- 工具调用:面对实时提问(如天气查询),模型可自主判断并调用外部工具以确保回复的准确性与时效性。
商业化与应用
- 部署方式:普通用户可通过 Qwen Chat 免费体验;开发者和企业可通过 阿里云百炼 平台调用。Plus、Flash、Light 三种 API 版本已上线。
- 成本优势:每百万 Tokens 输入成本不到 0.8 元,约为 Gemini-3.1 Pro 价格的 1/10。
- 行业覆盖:目前已广泛应用于短视频/直播平台、游戏、自媒体等行业,服务互联网、金融、消费电子及汽车等重点行业的超 100 万家客户。
