Qwen3.5-Omni实测：215项SOTA，实现视频通话中实时讲论文与写代码

2026/03/31 16:22阅读量 204

通义千问推出全模态原生模型Qwen3.5-Omni，在基准测试中斩获215项SOTA，通用音频理解能力全面超越Gemini 3.1 Pro。该模型支持通过摄像头进行实时视频交互，具备“边看边想边说”的流式处理能力，可现场解读学术论文、根据草图生成网页代码。其核心架构采用Thinker-Talker双系统配合ARIA技术，显著提升了多模态理解的准确性与语音输出的自然度。

事件概述

通义千问正式发布全模态原生模型 Qwen3.5-Omni，该模型实现了文本、图片、音频及音视频输入的无缝理解，并支持生成带时间戳的细粒度脚本。实测显示，其在多项基准测试中表现强劲，并首次将“视频通话”作为核心交互场景，支持用户在实时对话中进行论文解读与代码生成。

核心性能与数据

基准测试成绩：拿下 215项 SOTA（State-of-the-Art），整体成绩与 Gemini 3.1 Pro 互有胜负。
- 音频与推理：通用音频理解、推理、识别、翻译及对话能力全面超越 Gemini 3.1 Pro。
- 视觉与文本：能力与同尺寸的 Qwen3.5 模型持平。
基础规格：
- 提供 Plus、Flash、Light 三种尺寸。
- 支持 256K 上下文窗口。
- 支持 113种 语言识别。
- 可处理长达 10小时 的音频或 1小时 的视频内容。

实测功能亮点

1. 深度视频拆解与分析

模型能够处理节奏紧凑、镜头密集的无字幕视频（如电影预告片）。

分镜解析：能在数秒内生成包含分镜、人物、特效、音乐及蒙太奇手法的详细带时间戳脚本。
细节追问：针对特定时间点的人物身份、动作及氛围音效进行精准回答，并能分析视频传递的情感与隐喻。

2. Vibe Coding（氛围编程）

结合实时视频通话功能，实现“所见即所得”的代码生成。

场景：用户开启摄像头展示前端草图，AI 实时识别画面逻辑。
结果：在十余秒内生成 HTML+CSS 代码并提供预览，同时调用 WebSearch 填充动态内容。

3. 实时论文解读

支持在视频通话中直接“观看”屏幕上的论文图表与公式。

语义打断：支持用户随时打断讲解，AI 能迅速切换话题重点；同时具备抗噪能力，不受背景杂音干扰。
通俗化表达：将复杂的学术术语转化为大白话，解释创新点与差异。

技术架构升级

Qwen3.5-Omni 延续了 “会思考 + 会说话” 的双系统架构，并进行了关键升级：

Thinker（大脑）：多模态融合

架构：升级为 Hybrid-Attention MoE，提升效率与性能。
输入处理：将图像、声音、文本混合输入，利用特殊位置编码理解时间关系，输出统一文本表示。

Talker（嘴巴）：高效语音生成

轻量化生成：采用类似“语音压缩编码”的 RVQ 方法替代逐帧渲染，降低算力消耗并提升速度。
ARIA 技术：引入 自适应速率交错对齐（Adaptive Rate Interleaved Alignment） 机制，动态对齐文本与语音节奏，解决漏读、错读及发音不稳定问题。
流式设计：实现“边输入、边处理、边生成”，达到类真人的实时对话体验（低延迟抢话）。

访问方式

Web端体验：可通过手机网页端的 Qwen Chat 使用视频通话功能。
API调用：支持通过阿里云百炼平台搜索调用 API（含离线与实时版本）。

阅读原文详情