谷歌发布 Gemini Omni 与 Gemini 3.5 Flash：多模态视频生成与智能代理新突破

2026/05/30 01:30阅读量 4

在 Google I/O 2026 上，谷歌推出 Gemini Omni——可从任意输入创建视频并支持自然语言编辑；同时发布 Gemini 3.5 Flash 模型，主打代理式长时任务与编码能力，已集成至搜索、Gemini App 等产品，并推出个人 AI 代理 Gemini Spark。

在 Google I/O 2026 上，谷歌宣布了其最新模型：Gemini Omni 和 Gemini 3.5 系列。

多模态模型，可接受图像、音频、视频和文本作为输入，生成基于 Gemini 真实世界知识的高质量视频。
支持通过自然语言对话式编辑视频：每次指令都会继承上下文，保持角色一致性、物理规律和场景记忆。
演示示例：
- 将实拍雕像视频中的雕塑改为气泡材质。
- 将实拍视频中的房间灯光调暗，并在手掌上方生成一个内含递归手捧球的玻璃球。
- 对一段小提琴演奏视频进行多轮编辑：将小提琴手转移到新环境、隐藏小提琴、切换机位角度。

Gemini Omni Flash（轻量版）已面向全球 Plus/Pro/Ultra 订阅者通过 Gemini App 和 Google Flow 推出，并在 YouTube Shorts 和 YouTube Create App 免费使用；未来数周内将对开发者和企业客户通过 API 开放。
Gemini 3.5 Flash 已通过 Google Antigravity、Gemini API（AI Studio、Android Studio）、Gemini Enterprise Agent Platform 等途径公开可用，并已在全球 Gemini App 中逐步推送。

准备好启动您的定制项目了吗？