谷歌发布 Gemini Omni 与 Gemini 3.5 Flash:多模态视频生成与智能代理新突破
2026/05/30 01:30阅读量 4
在 Google I/O 2026 上,谷歌推出 Gemini Omni——可从任意输入创建视频并支持自然语言编辑;同时发布 Gemini 3.5 Flash 模型,主打代理式长时任务与编码能力,已集成至搜索、Gemini App 等产品,并推出个人 AI 代理 Gemini Spark。
事件概述
在 Google I/O 2026 上,谷歌宣布了其最新模型:Gemini Omni 和 Gemini 3.5 系列。
核心信息
Gemini Omni
- 多模态模型,可接受图像、音频、视频和文本作为输入,生成基于 Gemini 真实世界知识的高质量视频。
- 支持通过自然语言对话式编辑视频:每次指令都会继承上下文,保持角色一致性、物理规律和场景记忆。
- 演示示例:
- 将实拍雕像视频中的雕塑改为气泡材质。
- 将实拍视频中的房间灯光调暗,并在手掌上方生成一个内含递归手捧球的玻璃球。
- 对一段小提琴演奏视频进行多轮编辑:将小提琴手转移到新环境、隐藏小提琴、切换机位角度。
Gemini 3.5 Flash
- 前沿智能与行动能力结合,在智能体(agent)和编码任务上表现出色,擅长需要持续多步骤的复杂任务。
- 结合 Antigravity 框架后,可部署协作子代理,自动执行多步工作流(如重命名和分类非结构化资产)。
- 在 AI Studio 上,60 秒内即可生成不同 UX 方案(如结账流程)。
- 集成产品:
- 成为 Gemini App 和搜索 AI Mode 的默认模型。
- 支持搜索中的信息代理:7×24 后台运行,分析信息并推送综合更新与原文链接,首批面向 Google AI Pro & Ultra 订阅者今夏推出。
- 搜索引擎利用 3.5 Flash 实时生成定制 UI(如互动可视化、模拟器),今夏免费开放给所有用户。
- 可创建长期使用的面板/追踪器/迷你应用(如婚礼计划、健身例程),美国用户未来数月内可从搜索中创建自定义体验。
- Gemini Spark:个人 AI 代理,基于 3.5 Flash 和 Antigravity,24/7 运行,集成 Gmail、Docs、Slides 等 Workspace 工具,已向美国 Google AI Ultra 订阅者开放。
值得关注
- Gemini Omni Flash(轻量版)已面向全球 Plus/Pro/Ultra 订阅者通过 Gemini App 和 Google Flow 推出,并在 YouTube Shorts 和 YouTube Create App 免费使用;未来数周内将对开发者和企业客户通过 API 开放。
- Gemini 3.5 Flash 已通过 Google Antigravity、Gemini API(AI Studio、Android Studio)、Gemini Enterprise Agent Platform 等途径公开可用,并已在全球 Gemini App 中逐步推送。
