谷歌连发多模态模型:视频版Nano Banana升级,图像版Nano Banana 2 Lite出图仅4秒
2026/07/01 09:11阅读量 2
谷歌正式开放Gemini Omni Flash(视频版Nano Banana)API,支持对话式视频编辑与Gemini世界知识;同时发布Nano Banana 2 Lite图像模型,出图延迟约4秒,成本大幅降低。两款模型可串联使用,实现从图像到视频的无缝创作。
事件概述
谷歌于2026年7月1日宣布开放Gemini Omni Flash(即视频版Nano Banana)API,并推出新一代轻量图像生成模型Nano Banana 2 Lite。前者深度融合Gemini多模态推理能力,实现对话式视频生成与编辑;后者针对高速场景优化,出图延迟仅4秒,成本大幅下降。两款模型可组合使用,端到端完成“图像生成→视频转化”的创作工作流。
核心能力与价格
Gemini Omni Flash
- 关键能力:
- 对话式视频编辑:用自然语言修改视频,无需复杂操作。
- 多模态参考:结合图像、文本、视频输入,保持场景一致。
- 现实世界知识:调用Gemini在历史、生物等领域的知识构建视频内容。
- 文字与动作同步:通过提示词将文字/图形连接到视频动作。
- 价格与局限:每秒视频输出成本0.10美元(与Veo 3.1 Fast持平);目前仅支持10秒视频生成,不支持音频参考上传和场景扩展,视频参考素材最长3秒但模型尚无法正确处理,人物一致性在场景切换时仍有限。
Nano Banana 2 Lite(gemini-3.1-flash-lite-image)
- 速度与成本:出图延迟约4秒(Nano Banana 2约20秒);1K分辨率图像成本约0.034美元(Nano Banana 2的一半,Nano Banana Pro的四分之一)。
- 能力:文字渲染效果保持同级水平,在benchmark上与Grok等模型相当;适合电商素材批量生成、广告创意快速迭代等实时应用。
组合应用与Demo
谷歌推出三个Demo展示两模型串联的1+1>2效果:
- Anywhere:上传自拍或照片,Nano Banana 2 Lite将其P到多个地标景点,再通过Omni Flash转为动态短片。
- Space Lift:上传房间照片,先用Nano Banana 2 Lite生成多种装修风格方案,再一键输出电影级空间漫游视频。
- Omni product studio:给产品拍摄白底图,Nano Banana 2 Lite生成场景化商品图,Omni Flash将其转化为电商短视频,实现从产品到广告素材的全链路自动化。
