8家通用Agent预测Google I/O 2026：Claude夺冠，GLM唯一押中真意外

2026/05/21 20:37阅读量 2

硅星人评测8款主流Deep Research/Agent产品（Claude、Genspark、ChatGPT、MiniMax、Manus、Gemini、GLM、Kimi）对Google I/O 2026 keynote的预测能力。Claude以70.0综合分夺冠，过程分最高的Genspark排第二；GLM虽总分倒数第二，却唯一押中了最大意外Gemini Spark，且通过追问环节展现了完整推理链。评测发现预测项过多反而不利（Kimi、Manus排名靠后），且所有Agent在全新产品命名、商业模式变革、跨产品整合方面集体盲区。

评测背景与目的

硅星人AI前沿团队在Google I/O 2026 keynote前一周，将同一份Prompt发给8款主流Deep Research/Agent产品（Claude、Genspark、ChatGPT、MiniMax、Manus、Gemini、GLM、Kimi），要求逐类预测发布会内容。Keynote结束后按固化评分细则（过程40% + 结果60%）逐条对照实际发布清单进行打分，所有评分细则、原始报告公开开源。

综合排名

Claude（70.0）
Genspark（66.4）
ChatGPT（65.5）
MiniMax（63.2）
Manus（58.9）
Gemini（54.3）
GLM（50.5）
Kimi（49.7）

三个反直觉的关键发现

1. 过程分最高的Genspark综合分仅排第二

Genspark过程分88（8家最高），但综合分66.4，输给过程分85的Claude。Genspark在XR眼镜板块预测极准（4大合作伙伴全中、Samsung Jinju 7项规格100%对齐），但犯了“把上周新闻当本周预言”的错误——5月12日Android Show已公开Googlebook，Genspark仍将其列为5月19日keynote的“极高置信度预测”。Claude则信源少而精（14个URL，86%为Google一手源），关键细节全部精准押中，包括Pixel 10a降级使用Tensor G4、Project Mariner关停、Magic Pointer由DeepMind开发等，实现少而精胜过多而错。

2. 唯一押对真意外Gemini Spark的，是综合分倒数第二的GLM

Gemini Spark是keynote公认的最大意外——一个always-on的“24/7个人AI agent”，其他7家在追问“猜意外”环节全未押中。GLM通过追问3展示了完整推理路径：基于5月1日Google Play Store误传后被下架的实验性App“COSMO”、结合泄露代号Remy（描述为“24/7数字搭档”）、以及Android Show上“Android as intelligence system”的信号，拼出“Google会发一个消费者always-on AI agent，代号COSMO/Gemini Spark”。但戏剧性的是，GLM的主报告并未押Spark，只在追问3中补上；且主报告大量将已发布事件（如2月已发的Gemini 3.1 Pro）列为高置信度预测，导致总分被压。

3. 押得越多，命中率越低

Kimi给出69条预测、Manus给出72条，综合分均跌至60以下；而MiniMax仅25条、Claude仅29条，反而进入前4。Kimi和Manus押对的硬细节不少（Mariner继任者、TPU 8代、MCP原生支持等），但大量Android 17平台API（如Universal App Bubbles、ART分代垃圾回收等）在keynote主台未出现，计入分母后拉低总分。说明该评测规则奖励“精准押注”而非“密集列点”。

信源策略的两极

极保守派：Claude仅14个URL，86%来自Google官博，几乎不做大胆推理，0个编造项，干净命中率高。
极努力派：Gemini使用108个URL（全场最多），但混入大量低质长尾源（营销公司SEO博客、个人开发者博客等），且出现时序错位和2项自信编造（如Atlas机器人demo、Willow量子早期访问），导致排名倒数第三。

各Agent亮点与槽点（简选）

Claude：抓到4个反共识细节全押中；但自我反思段落出现事实偏差（称Shahram Izadi已离职OpenAI，实际仍在职），且将4月已独立发布的macOS版Gemini app误标为Android Show内容。
Genspark：XR眼镜板块8家最准；最大问题是信息框架处理失败。
ChatGPT：唯一双押双中（正向押agentic AI、负向押Pixel 11不发），但反预测踩雷（认为AI Ultra不会大幅降价，实际降价且新增$100中端档）。
MiniMax：追问2押注极稳且主动校准置信度；但100%中文二手源结构，英文一手源完全缺席。
Manus：硬命中清单表现炸裂；但72项预测中大量Android 17 API未出现，被判❌最多。
Gemini：细节引用极精准；但引用2025年旧文章当预测依据，错误“证伪”Wear OS 7，且2项自信编造。
GLM：信源透明度最干净；主报告保守且与追问3不一致。
Kimi：URL颗粒度不足，32条引用仅为域名首页或分类页，无法精确佐证；且存在编造数据（如AI Mode转化率14.2%无信源）。

集体翻车：8家全错的5件事

商业模式+全新命名：AI Ultra大幅降价+改metering计费，8家全错；Google Pics、Spark、Daily Brief等新名字猜不出。
跨产品整合：Universal Cart、Ask YouTube、Information Agents等跨产品组合，Agent集体哑火。
规模数据：Personal Intelligence扩展到98语言/近200国、Gemini app月活9亿等数据未押。
UI/UX命名：Android Halo、Neural Expressive等内部命名猜不出。
真意外Gemini Spark：仅GLM在追问3中押中。

总结：Agent擅长预测“已知产品的版本号+已知合作伙伴硬件细节”，不擅长“全新命名+商业模式变革+跨产品整合”。

追问押注开奖

追问2“押一注赌职业声誉”：ChatGPT双押双中（一正一反均命中）；MiniMax押XR眼镜（5/12已预告，风险最低）；Claude押Gemini 3.2 Flash但实际发3.5（版本号差一档）。
追问3“最大意外”：仅GLM押中Gemini Spark；其他押Chrome agent、AI for Science等方向均被Spark盖过。

结论

本次评测揭示了Agent能力的显著进步与差异性。所有评测细则、原始报告及评分明细均已开源。

阅读原文详情