谷歌连发多模态模型：视频版Nano Banana升级，图像版Nano Banana 2 Lite出图仅4秒

2026/07/01 09:11阅读量 2

谷歌正式开放Gemini Omni Flash（视频版Nano Banana）API，支持对话式视频编辑与Gemini世界知识；同时发布Nano Banana 2 Lite图像模型，出图延迟约4秒，成本大幅降低。两款模型可串联使用，实现从图像到视频的无缝创作。

事件概述

谷歌于2026年7月1日宣布开放Gemini Omni Flash（即视频版Nano Banana）API，并推出新一代轻量图像生成模型Nano Banana 2 Lite。前者深度融合Gemini多模态推理能力，实现对话式视频生成与编辑；后者针对高速场景优化，出图延迟仅4秒，成本大幅下降。两款模型可组合使用，端到端完成“图像生成→视频转化”的创作工作流。

核心能力与价格

Gemini Omni Flash

关键能力：
- 对话式视频编辑：用自然语言修改视频，无需复杂操作。
- 多模态参考：结合图像、文本、视频输入，保持场景一致。
- 现实世界知识：调用Gemini在历史、生物等领域的知识构建视频内容。
- 文字与动作同步：通过提示词将文字/图形连接到视频动作。
价格与局限：每秒视频输出成本0.10美元（与Veo 3.1 Fast持平）；目前仅支持10秒视频生成，不支持音频参考上传和场景扩展，视频参考素材最长3秒但模型尚无法正确处理，人物一致性在场景切换时仍有限。

Nano Banana 2 Lite（gemini-3.1-flash-lite-image）

速度与成本：出图延迟约4秒（Nano Banana 2约20秒）；1K分辨率图像成本约0.034美元（Nano Banana 2的一半，Nano Banana Pro的四分之一）。
能力：文字渲染效果保持同级水平，在benchmark上与Grok等模型相当；适合电商素材批量生成、广告创意快速迭代等实时应用。

组合应用与Demo

谷歌推出三个Demo展示两模型串联的1+1>2效果：

Anywhere：上传自拍或照片，Nano Banana 2 Lite将其P到多个地标景点，再通过Omni Flash转为动态短片。
Space Lift：上传房间照片，先用Nano Banana 2 Lite生成多种装修风格方案，再一键输出电影级空间漫游视频。
Omni product studio：给产品拍摄白底图，Nano Banana 2 Lite生成场景化商品图，Omni Flash将其转化为电商短视频，实现从产品到广告素材的全链路自动化。

阅读原文详情

事件概述

核心能力与价格

Gemini Omni Flash

Nano Banana 2 Lite（gemini-3.1-flash-lite-image）

组合应用与Demo

准备好启动您的定制项目了吗？