阿里云发布Qwen3.5-Omni:原生全模态架构开启AGI落地新阶段
2026/04/01 12:30阅读量 4
3月30日,阿里云通义实验室正式发布旗舰级原生全模态大模型Qwen3.5-Omni,该模型采用端到端架构,在音频及音视频分析等30多项基准测试中取得215项SOTA成绩,通用音频理解能力超越Gemini-3.1 Pro。模型支持256k上下文、113种语种识别及代码生成等新能力,并推出极具竞争力的定价策略以推动全模态技术普惠化。此举标志着国产大模型在全模态赛道实现与国际顶尖水平并跑,但也面临算力成本、商业化落地及合规监管等多重挑战。
事件概述
3月30日,阿里云通义实验室正式发布旗舰级原生全模态大模型Qwen3.5-Omni。作为通义千问系列的全新迭代产品,该模型并非传统“视觉+语言+语音”的拼接方案,而是基于超1亿小时音视频数据预训练的原生端到端架构,旨在打通文本、图像、音频、视频的底层语义逻辑,解决多模态信息传递中的损耗与延迟问题。
核心性能与技术突破
- 基准测试表现:在音频及音视频分析、推理、对话、翻译等30多项国际权威基准测试中,拿下215项SOTA(最先进水平)成绩。其通用音频理解能力全面超越谷歌Gemini-3.1 Pro,音视频理解能力与之持平,同时保持了同尺寸单模态模型的文本与视觉水准,实现了行业长期难以突破的“全模态不降智”。
- 配置与能力:
- 提供Plus、Flash、Light三种尺寸的Instruct版本。
- 支持256k超长上下文,可处理超过10小时的音频输入与400秒的720P视频输入。
- 原生支持113种语种和方言的语音识别,以及36种语种的语音生成。
- 新增语义打断、音色克隆、复杂工具调用等能力。
- Audio-Visual Vibe Coding:未经专门训练自然涌现出根据音视频指令直接生成可运行代码的能力,实现从“感知理解”到“执行落地”的跨越。
- 服务配套:同步上线基于WebSocket协议的实时API服务,内置VAD语音活动检测功能,支持低延迟流式交互。
市场战略与商业化布局
- 战略定位:此次发布是阿里巴巴集团将AI业务升级为集团战略核心、统一“千问”品牌后的首个旗舰级全模态产品,标志着阿里全栈AI布局进入技术落地与生态扩张新阶段。
- 市场地位:据沙利文报告,2025年下半年中国企业级大模型日均调用量达37.0万亿tokens,阿里云千问市场占比跃升至32.1%,稳居国内企业级大模型市场首位。
- 定价策略:采取极具普惠性的定价,模型API输入价格每千Token仅0.0016元;并为开发者提供开通后180天内各100万Token的免费额度,大幅降低应用门槛。
- 营收目标:阿里AI相关产品收入已连续10个季度实现三位数同比增长,集团明确未来五年云和AI商业化年收入突破1000亿美元的目标,MaaS(模型即服务)业务被定位为增长核心。
行业影响与挑战
- 核心价值:
- 进口替代:核心能力对标甚至超越国际顶尖模型,具备本土化适配优势,推动国内企业转向使用国产自主模型。
- 场景拓展:打破应用限制,在智能穿戴(如实时路牌翻译)、企业办公(跨国会议纪要)、创意产业(视频结构化解析)等领域重构生产流程。
- Agent落地:赋予智能体“眼睛”和“耳朵”,推动AI Agent从虚拟文本交互走向工业、消费、医疗等真实物理场景。
- 面临挑战:
- 竞争加剧:百度文心一言、腾讯混元、字节豆包及国际巨头OpenAI、谷歌均在持续加码全模态赛道。
- 成本压力:全模态大模型对算力需求远高于传统文本模型,推理成本高,规模化商用需解决成本控制问题。
- 合规风险:涉及音视频内容监管更严,音色克隆等功能存在隐私泄露与侵权风险,需建立完善的合规管控机制。
- 供应链风险:端侧部署技术挑战及美国对华AI芯片出口管制收紧可能影响长期发展。
总体而言,Qwen3.5-Omni的发布是国产全模态大模型的里程碑式突破,不仅缩小了与国际顶尖厂商的技术差距,更通过开放API与亲民定价推动了全模态AI能力的普及。
