谷歌发布 Gemini Omni 与 Gemini 3.5 Flash:多模态视频生成与智能代理新突破

2026/05/30 01:30阅读量 4

在 Google I/O 2026 上,谷歌推出 Gemini Omni——可从任意输入创建视频并支持自然语言编辑;同时发布 Gemini 3.5 Flash 模型,主打代理式长时任务与编码能力,已集成至搜索、Gemini App 等产品,并推出个人 AI 代理 Gemini Spark。

事件概述

在 Google I/O 2026 上,谷歌宣布了其最新模型:Gemini OmniGemini 3.5 系列。

核心信息

Gemini Omni

  • 多模态模型,可接受图像、音频、视频和文本作为输入,生成基于 Gemini 真实世界知识的高质量视频。
  • 支持通过自然语言对话式编辑视频:每次指令都会继承上下文,保持角色一致性、物理规律和场景记忆。
  • 演示示例
    • 将实拍雕像视频中的雕塑改为气泡材质。
    • 将实拍视频中的房间灯光调暗,并在手掌上方生成一个内含递归手捧球的玻璃球。
    • 对一段小提琴演奏视频进行多轮编辑:将小提琴手转移到新环境、隐藏小提琴、切换机位角度。

Gemini 3.5 Flash

  • 前沿智能与行动能力结合,在智能体(agent)和编码任务上表现出色,擅长需要持续多步骤的复杂任务。
  • 结合 Antigravity 框架后,可部署协作子代理,自动执行多步工作流(如重命名和分类非结构化资产)。
  • 在 AI Studio 上,60 秒内即可生成不同 UX 方案(如结账流程)。
  • 集成产品
    • 成为 Gemini App 和搜索 AI Mode 的默认模型。
    • 支持搜索中的信息代理:7×24 后台运行,分析信息并推送综合更新与原文链接,首批面向 Google AI Pro & Ultra 订阅者今夏推出。
    • 搜索引擎利用 3.5 Flash 实时生成定制 UI(如互动可视化、模拟器),今夏免费开放给所有用户。
    • 可创建长期使用的面板/追踪器/迷你应用(如婚礼计划、健身例程),美国用户未来数月内可从搜索中创建自定义体验。
    • Gemini Spark:个人 AI 代理,基于 3.5 Flash 和 Antigravity,24/7 运行,集成 Gmail、Docs、Slides 等 Workspace 工具,已向美国 Google AI Ultra 订阅者开放。

值得关注

  • Gemini Omni Flash(轻量版)已面向全球 Plus/Pro/Ultra 订阅者通过 Gemini App 和 Google Flow 推出,并在 YouTube Shorts 和 YouTube Create App 免费使用;未来数周内将对开发者和企业客户通过 API 开放。
  • Gemini 3.5 Flash 已通过 Google Antigravity、Gemini API(AI Studio、Android Studio)、Gemini Enterprise Agent Platform 等途径公开可用,并已在全球 Gemini App 中逐步推送。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。