Gemini 3.5 Flash表现不及预期，谷歌全家桶体验被拖累

2026/05/27 13:43阅读量 2

谷歌发布Gemini 3.5 Flash模型后，因输出啰嗦、token消耗大、推理能力弱等问题遭到用户批评。该模型被嵌入谷歌大部分产品，导致AI Overview出现指令误判等故障。与此同时，谷歌TPU硬件业务表现强劲，Anthropic等客户大量采购。关键时刻将取决于即将发布的Gemini 3.5 Pro能否挽回局面。

事件概述

谷歌在I/O 2026上发布Gemini 3.5 Flash，声称性能强于前代Pro且价格低廉。然而实际使用时，模型输出内容错误多、啰嗦、token消耗量远超预期，且嵌入谷歌全家桶后导致搜索等产品出现低级故障。网友评价普遍负面，认为谷歌模型能力倒退。

核心信息

成本问题：官方定价每百万输入token 1.5美元、输出9美元，看似便宜。但Artificial Analysis测试显示，完成同等任务总成本达1552美元，是Gemini 3 Flash的5.5倍。原因在于Agent评估中平均每个任务需49轮对话，每轮都需完整对话历史，token成本暴增。
输出啰嗦：同一问题下，Flash会先解释背景、列举多种方案再给出代码，大量内容为废话，却都按token收费。复杂任务消耗token是预期三倍以上，甚至单个prompt触发5小时使用限制。
性能不均衡：Flash在工具调用和Agent任务（如Terminal-Bench 2.1 76.2%）表现不错，但在推理榜单（如Humanity's Last Exam 40.2%）明显低于Gemini 3.1 Pro（44.4%）和Claude Opus 4.7（46.9%）。长上下文能力下降，1M token下MRCR v2测试仅26.6%。
产品污染：Gemini嵌入Google几乎所有产品后，AI Overview出现“disregard/ignore/stop”等指令误判故障，搜索这些词时AI Overview会误以为是指令而错误回复。用户测试发现“remember”“start”等词也会触发。谷歌回应称正在修复。
Pro模型尚未发布：官方表示Gemini 3.5 Pro预计6月推出，设计上Pro负责规划推理，Flash负责执行。但当前大量场景只能由Flash独立支撑，导致体验差。若Pro质量不佳，谷歌AI全线产品将全面溃败。

值得关注

谷歌Q1财报显示收入1099亿美元，Cloud收入200亿美元同比增长63%。TPU硬件和数据中心业务成为增长引擎。
谷歌发布第八代TPU，分训练专用TPU 8t（goodput超97%）和推理专用TPU 8i（384MB SRAM加速Agent低延迟调用）。
Anthropic等外部客户大量采购谷歌TPU资源，价值数百亿美元，但谷歌自身模型Gemini 3.5 Flash却表现不佳。
行业观察者认为，谷歌需凭3.5 Pro证明模型能力未掉队，否则可能沦为硬件公司而失去AI入口优势。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？