Google DeepMind 发布 Gemini Omni Flash：从视频输入到视频生成的统一多模态模型

2026/05/18 03:50阅读量 3

Google DeepMind 推出 Gemini Omni Flash，这是 Gemini Omni 系列的首个模型，支持从视频、图像、音频和文本等多模态输入生成高质量视频。该模型具备自然语言视频编辑、物理理解及世界知识调用能力，并内置 SynthID 数字水印。即日起面向 Google AI 订阅用户和 YouTube Shorts 免费用户推出。

事件概述

Google DeepMind 正式发布 Gemini Omni，这是一个全新的多模态生成模型，能够接受图像、音频、视频和文本作为输入，并输出高质量视频。目前推出的首个模型是 Gemini Omni Flash，重点支持视频输入和视频生成，后续将扩展至图像和音频输出。

核心信息

多模态输入与视频生成：Gemini Omni Flash 可结合图像、音频、视频和文本参考，利用 Gemini 的世界知识生成符合物理规律和上下文语义的视频。
自然语言视频编辑：用户可以通过连续对话指令编辑视频，包括改变环境、角度、风格、动作或添加/移除物体，角色一致性和物理规则得以保持。
物理与知识理解：模型具备对重力、动能、流体等物理力的直觉理解，并能调用历史、科学和文化知识，实现从真实感图像到有叙事逻辑的转换。
参考素材融合：支持以图像、文字、视频或音频作为参考，将多种参考融合为统一输出（音频输入目前仅支持语音参考）。
数字分身（Avatar）：用户可以创建自己的数字分身，用于生成包含自身形象和声音的视频，同时保留其他音频/语音编辑功能仍在测试中。
内容安全与溯源：所有 Omni 生成视频均内置不可见的 SynthID 数字水印，可通过 Gemini 应用、Chrome 和 Google 搜索验证来源。

发布与可用性

Gemini Omni Flash 即日起面向全球 Google AI Plus、Pro 和 Ultra 订阅用户，在 Gemini 应用和 Google Flow 中提供。
本周起，YouTube Shorts 和 YouTube Create 应用用户可免费使用。
未来几周将面向开发者和企业客户通过 API 开放。

阅读原文详情

事件概述

核心信息

发布与可用性

准备好启动您的定制项目了吗？