Qwen3.5-Omni实测:215项SOTA,实现视频通话中实时讲论文与写代码

2026/03/31 16:22阅读量 2

通义千问推出全模态原生模型Qwen3.5-Omni,在基准测试中斩获215项SOTA,通用音频理解能力全面超越Gemini 3.1 Pro。该模型支持通过摄像头进行实时视频交互,具备“边看边想边说”的流式处理能力,可现场解读学术论文、根据草图生成网页代码。其核心架构采用Thinker-Talker双系统配合ARIA技术,显著提升了多模态理解的准确性与语音输出的自然度。

事件概述

通义千问正式发布全模态原生模型 Qwen3.5-Omni,该模型实现了文本、图片、音频及音视频输入的无缝理解,并支持生成带时间戳的细粒度脚本。实测显示,其在多项基准测试中表现强劲,并首次将“视频通话”作为核心交互场景,支持用户在实时对话中进行论文解读与代码生成。

核心性能与数据

  • 基准测试成绩:拿下 215项 SOTA(State-of-the-Art),整体成绩与 Gemini 3.1 Pro 互有胜负。
    • 音频与推理:通用音频理解、推理、识别、翻译及对话能力全面超越 Gemini 3.1 Pro。
    • 视觉与文本:能力与同尺寸的 Qwen3.5 模型持平。
  • 基础规格
    • 提供 Plus、Flash、Light 三种尺寸。
    • 支持 256K 上下文窗口。
    • 支持 113种 语言识别。
    • 可处理长达 10小时 的音频或 1小时 的视频内容。

实测功能亮点

1. 深度视频拆解与分析

模型能够处理节奏紧凑、镜头密集的无字幕视频(如电影预告片)。

  • 分镜解析:能在数秒内生成包含分镜、人物、特效、音乐及蒙太奇手法的详细带时间戳脚本。
  • 细节追问:针对特定时间点的人物身份、动作及氛围音效进行精准回答,并能分析视频传递的情感与隐喻。

2. Vibe Coding(氛围编程)

结合实时视频通话功能,实现“所见即所得”的代码生成。

  • 场景:用户开启摄像头展示前端草图,AI 实时识别画面逻辑。
  • 结果:在十余秒内生成 HTML+CSS 代码并提供预览,同时调用 WebSearch 填充动态内容。

3. 实时论文解读

支持在视频通话中直接“观看”屏幕上的论文图表与公式。

  • 语义打断:支持用户随时打断讲解,AI 能迅速切换话题重点;同时具备抗噪能力,不受背景杂音干扰。
  • 通俗化表达:将复杂的学术术语转化为大白话,解释创新点与差异。

技术架构升级

Qwen3.5-Omni 延续了 “会思考 + 会说话” 的双系统架构,并进行了关键升级:

Thinker(大脑):多模态融合

  • 架构:升级为 Hybrid-Attention MoE,提升效率与性能。
  • 输入处理:将图像、声音、文本混合输入,利用特殊位置编码理解时间关系,输出统一文本表示。

Talker(嘴巴):高效语音生成

  • 轻量化生成:采用类似“语音压缩编码”的 RVQ 方法替代逐帧渲染,降低算力消耗并提升速度。
  • ARIA 技术:引入 自适应速率交错对齐(Adaptive Rate Interleaved Alignment) 机制,动态对齐文本与语音节奏,解决漏读、错读及发音不稳定问题。
  • 流式设计:实现“边输入、边处理、边生成”,达到类真人的实时对话体验(低延迟抢话)。

访问方式

  • Web端体验:可通过手机网页端的 Qwen Chat 使用视频通话功能。
  • API调用:支持通过阿里云百炼平台搜索调用 API(含离线与实时版本)。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。