Gemini 3.5 Flash表现不及预期,谷歌全家桶体验被拖累
2026/05/27 13:43阅读量 2
谷歌发布Gemini 3.5 Flash模型后,因输出啰嗦、token消耗大、推理能力弱等问题遭到用户批评。该模型被嵌入谷歌大部分产品,导致AI Overview出现指令误判等故障。与此同时,谷歌TPU硬件业务表现强劲,Anthropic等客户大量采购。关键时刻将取决于即将发布的Gemini 3.5 Pro能否挽回局面。
事件概述
谷歌在I/O 2026上发布Gemini 3.5 Flash,声称性能强于前代Pro且价格低廉。然而实际使用时,模型输出内容错误多、啰嗦、token消耗量远超预期,且嵌入谷歌全家桶后导致搜索等产品出现低级故障。网友评价普遍负面,认为谷歌模型能力倒退。
核心信息
- 成本问题:官方定价每百万输入token 1.5美元、输出9美元,看似便宜。但Artificial Analysis测试显示,完成同等任务总成本达1552美元,是Gemini 3 Flash的5.5倍。原因在于Agent评估中平均每个任务需49轮对话,每轮都需完整对话历史,token成本暴增。
- 输出啰嗦:同一问题下,Flash会先解释背景、列举多种方案再给出代码,大量内容为废话,却都按token收费。复杂任务消耗token是预期三倍以上,甚至单个prompt触发5小时使用限制。
- 性能不均衡:Flash在工具调用和Agent任务(如Terminal-Bench 2.1 76.2%)表现不错,但在推理榜单(如Humanity's Last Exam 40.2%)明显低于Gemini 3.1 Pro(44.4%)和Claude Opus 4.7(46.9%)。长上下文能力下降,1M token下MRCR v2测试仅26.6%。
- 产品污染:Gemini嵌入Google几乎所有产品后,AI Overview出现“disregard/ignore/stop”等指令误判故障,搜索这些词时AI Overview会误以为是指令而错误回复。用户测试发现“remember”“start”等词也会触发。谷歌回应称正在修复。
- Pro模型尚未发布:官方表示Gemini 3.5 Pro预计6月推出,设计上Pro负责规划推理,Flash负责执行。但当前大量场景只能由Flash独立支撑,导致体验差。若Pro质量不佳,谷歌AI全线产品将全面溃败。
值得关注
- 谷歌Q1财报显示收入1099亿美元,Cloud收入200亿美元同比增长63%。TPU硬件和数据中心业务成为增长引擎。
- 谷歌发布第八代TPU,分训练专用TPU 8t(goodput超97%)和推理专用TPU 8i(384MB SRAM加速Agent低延迟调用)。
- Anthropic等外部客户大量采购谷歌TPU资源,价值数百亿美元,但谷歌自身模型Gemini 3.5 Flash却表现不佳。
- 行业观察者认为,谷歌需凭3.5 Pro证明模型能力未掉队,否则可能沦为硬件公司而失去AI入口优势。
