谷歌调整Gemini API计费策略:新增五档推理服务,弹性与批量模式享半价
2026/04/03 14:28阅读量 2
谷歌近日更新Gemini API定价体系,推出标准、弹性、优先、批量及缓存五种推理服务档位。其中弹性(Flex)和批量(Batch)档位利用非高峰算力或长延迟场景,提供标准费率五折优惠,分别适用于1-15分钟延迟需求和最长24小时的任务处理。该调整旨在根据实际推理需求优化成本结构,为用户提供更灵活的计费选择。
事件概述
谷歌对Gemini API的计费方案进行了更新,新的定价模型基于实际推理使用需求制定,并新增了五个专门的推理服务档位。
核心信息
新增推理服务档位
本次更新主要引入了以下五种服务类型:
- 标准版 (Standard):常规推理服务。
- 弹性版 (Flex):利用非高峰时段的闲置算力资源。
- 优先版 (Priority):提供更高优先级的服务响应。
- 批量版 (Batch):适用于大规模、非实时任务的处理。
- 缓存版 (Caching):针对重复请求的优化版本。
优惠策略与性能指标
- 弹性推理 (Flex):
- 价格:提供标准费率的五折优惠。
- 延迟目标:1至15分钟。
- 限制:不提供严格的延迟保证。
- 批量API (Batch):
- 价格:同样提供标准费率的五折优惠。
- 延迟上限:最长可达24小时。
值得关注
此次定价调整反映了大模型服务从单一计费向精细化场景分层的转变。通过引入弹性与批量模式,用户可根据任务对时效性的敏感度,在成本与速度之间进行权衡,从而降低非实时业务的使用门槛。
