Google DeepMind 发布 Gemini Omni Flash:从视频输入到视频生成的统一多模态模型
2026/05/18 03:50阅读量 3
Google DeepMind 推出 Gemini Omni Flash,这是 Gemini Omni 系列的首个模型,支持从视频、图像、音频和文本等多模态输入生成高质量视频。该模型具备自然语言视频编辑、物理理解及世界知识调用能力,并内置 SynthID 数字水印。即日起面向 Google AI 订阅用户和 YouTube Shorts 免费用户推出。
事件概述
Google DeepMind 正式发布 Gemini Omni,这是一个全新的多模态生成模型,能够接受图像、音频、视频和文本作为输入,并输出高质量视频。目前推出的首个模型是 Gemini Omni Flash,重点支持视频输入和视频生成,后续将扩展至图像和音频输出。
核心信息
- 多模态输入与视频生成:Gemini Omni Flash 可结合图像、音频、视频和文本参考,利用 Gemini 的世界知识生成符合物理规律和上下文语义的视频。
- 自然语言视频编辑:用户可以通过连续对话指令编辑视频,包括改变环境、角度、风格、动作或添加/移除物体,角色一致性和物理规则得以保持。
- 物理与知识理解:模型具备对重力、动能、流体等物理力的直觉理解,并能调用历史、科学和文化知识,实现从真实感图像到有叙事逻辑的转换。
- 参考素材融合:支持以图像、文字、视频或音频作为参考,将多种参考融合为统一输出(音频输入目前仅支持语音参考)。
- 数字分身(Avatar):用户可以创建自己的数字分身,用于生成包含自身形象和声音的视频,同时保留其他音频/语音编辑功能仍在测试中。
- 内容安全与溯源:所有 Omni 生成视频均内置不可见的 SynthID 数字水印,可通过 Gemini 应用、Chrome 和 Google 搜索验证来源。
发布与可用性
- Gemini Omni Flash 即日起面向全球 Google AI Plus、Pro 和 Ultra 订阅用户,在 Gemini 应用和 Google Flow 中提供。
- 本周起,YouTube Shorts 和 YouTube Create 应用用户可免费使用。
- 未来几周将面向开发者和企业客户通过 API 开放。
