谷歌连发多模态模型:视频版Nano Banana升级,图像版Nano Banana 2 Lite出图仅4秒

2026/07/01 09:11阅读量 2

谷歌正式开放Gemini Omni Flash(视频版Nano Banana)API,支持对话式视频编辑与Gemini世界知识;同时发布Nano Banana 2 Lite图像模型,出图延迟约4秒,成本大幅降低。两款模型可串联使用,实现从图像到视频的无缝创作。

事件概述

谷歌于2026年7月1日宣布开放Gemini Omni Flash(即视频版Nano Banana)API,并推出新一代轻量图像生成模型Nano Banana 2 Lite。前者深度融合Gemini多模态推理能力,实现对话式视频生成与编辑;后者针对高速场景优化,出图延迟仅4秒,成本大幅下降。两款模型可组合使用,端到端完成“图像生成→视频转化”的创作工作流。

核心能力与价格

Gemini Omni Flash

  • 关键能力
    • 对话式视频编辑:用自然语言修改视频,无需复杂操作。
    • 多模态参考:结合图像、文本、视频输入,保持场景一致。
    • 现实世界知识:调用Gemini在历史、生物等领域的知识构建视频内容。
    • 文字与动作同步:通过提示词将文字/图形连接到视频动作。
  • 价格与局限:每秒视频输出成本0.10美元(与Veo 3.1 Fast持平);目前仅支持10秒视频生成,不支持音频参考上传和场景扩展,视频参考素材最长3秒但模型尚无法正确处理,人物一致性在场景切换时仍有限。

Nano Banana 2 Lite(gemini-3.1-flash-lite-image)

  • 速度与成本:出图延迟约4秒(Nano Banana 2约20秒);1K分辨率图像成本约0.034美元(Nano Banana 2的一半,Nano Banana Pro的四分之一)。
  • 能力:文字渲染效果保持同级水平,在benchmark上与Grok等模型相当;适合电商素材批量生成、广告创意快速迭代等实时应用。

组合应用与Demo

谷歌推出三个Demo展示两模型串联的1+1>2效果:

  • Anywhere:上传自拍或照片,Nano Banana 2 Lite将其P到多个地标景点,再通过Omni Flash转为动态短片。
  • Space Lift:上传房间照片,先用Nano Banana 2 Lite生成多种装修风格方案,再一键输出电影级空间漫游视频。
  • Omni product studio:给产品拍摄白底图,Nano Banana 2 Lite生成场景化商品图,Omni Flash将其转化为电商短视频,实现从产品到广告素材的全链路自动化。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。