8家通用Agent预测Google I/O 2026:Claude夺冠,GLM唯一押中真意外

2026/05/21 20:37阅读量 2

硅星人评测8款主流Deep Research/Agent产品(Claude、Genspark、ChatGPT、MiniMax、Manus、Gemini、GLM、Kimi)对Google I/O 2026 keynote的预测能力。Claude以70.0综合分夺冠,过程分最高的Genspark排第二;GLM虽总分倒数第二,却唯一押中了最大意外Gemini Spark,且通过追问环节展现了完整推理链。评测发现预测项过多反而不利(Kimi、Manus排名靠后),且所有Agent在全新产品命名、商业模式变革、跨产品整合方面集体盲区。

评测背景与目的

硅星人AI前沿团队在Google I/O 2026 keynote前一周,将同一份Prompt发给8款主流Deep Research/Agent产品(Claude、Genspark、ChatGPT、MiniMax、Manus、Gemini、GLM、Kimi),要求逐类预测发布会内容。Keynote结束后按固化评分细则(过程40% + 结果60%)逐条对照实际发布清单进行打分,所有评分细则、原始报告公开开源。

综合排名

  1. Claude(70.0)
  2. Genspark(66.4)
  3. ChatGPT(65.5)
  4. MiniMax(63.2)
  5. Manus(58.9)
  6. Gemini(54.3)
  7. GLM(50.5)
  8. Kimi(49.7)

三个反直觉的关键发现

1. 过程分最高的Genspark综合分仅排第二

Genspark过程分88(8家最高),但综合分66.4,输给过程分85的Claude。Genspark在XR眼镜板块预测极准(4大合作伙伴全中、Samsung Jinju 7项规格100%对齐),但犯了“把上周新闻当本周预言”的错误——5月12日Android Show已公开Googlebook,Genspark仍将其列为5月19日keynote的“极高置信度预测”。Claude则信源少而精(14个URL,86%为Google一手源),关键细节全部精准押中,包括Pixel 10a降级使用Tensor G4、Project Mariner关停、Magic Pointer由DeepMind开发等,实现少而精胜过多而错。

2. 唯一押对真意外Gemini Spark的,是综合分倒数第二的GLM

Gemini Spark是keynote公认的最大意外——一个always-on的“24/7个人AI agent”,其他7家在追问“猜意外”环节全未押中。GLM通过追问3展示了完整推理路径:基于5月1日Google Play Store误传后被下架的实验性App“COSMO”、结合泄露代号Remy(描述为“24/7数字搭档”)、以及Android Show上“Android as intelligence system”的信号,拼出“Google会发一个消费者always-on AI agent,代号COSMO/Gemini Spark”。但戏剧性的是,GLM的主报告并未押Spark,只在追问3中补上;且主报告大量将已发布事件(如2月已发的Gemini 3.1 Pro)列为高置信度预测,导致总分被压。

3. 押得越多,命中率越低

Kimi给出69条预测、Manus给出72条,综合分均跌至60以下;而MiniMax仅25条、Claude仅29条,反而进入前4。Kimi和Manus押对的硬细节不少(Mariner继任者、TPU 8代、MCP原生支持等),但大量Android 17平台API(如Universal App Bubbles、ART分代垃圾回收等)在keynote主台未出现,计入分母后拉低总分。说明该评测规则奖励“精准押注”而非“密集列点”。

信源策略的两极

  • 极保守派:Claude仅14个URL,86%来自Google官博,几乎不做大胆推理,0个编造项,干净命中率高。
  • 极努力派:Gemini使用108个URL(全场最多),但混入大量低质长尾源(营销公司SEO博客、个人开发者博客等),且出现时序错位和2项自信编造(如Atlas机器人demo、Willow量子早期访问),导致排名倒数第三。

各Agent亮点与槽点(简选)

  • Claude:抓到4个反共识细节全押中;但自我反思段落出现事实偏差(称Shahram Izadi已离职OpenAI,实际仍在职),且将4月已独立发布的macOS版Gemini app误标为Android Show内容。
  • Genspark:XR眼镜板块8家最准;最大问题是信息框架处理失败。
  • ChatGPT:唯一双押双中(正向押agentic AI、负向押Pixel 11不发),但反预测踩雷(认为AI Ultra不会大幅降价,实际降价且新增$100中端档)。
  • MiniMax:追问2押注极稳且主动校准置信度;但100%中文二手源结构,英文一手源完全缺席。
  • Manus:硬命中清单表现炸裂;但72项预测中大量Android 17 API未出现,被判❌最多。
  • Gemini:细节引用极精准;但引用2025年旧文章当预测依据,错误“证伪”Wear OS 7,且2项自信编造。
  • GLM:信源透明度最干净;主报告保守且与追问3不一致。
  • Kimi:URL颗粒度不足,32条引用仅为域名首页或分类页,无法精确佐证;且存在编造数据(如AI Mode转化率14.2%无信源)。

集体翻车:8家全错的5件事

  1. 商业模式+全新命名:AI Ultra大幅降价+改metering计费,8家全错;Google Pics、Spark、Daily Brief等新名字猜不出。
  2. 跨产品整合:Universal Cart、Ask YouTube、Information Agents等跨产品组合,Agent集体哑火。
  3. 规模数据:Personal Intelligence扩展到98语言/近200国、Gemini app月活9亿等数据未押。
  4. UI/UX命名:Android Halo、Neural Expressive等内部命名猜不出。
  5. 真意外Gemini Spark:仅GLM在追问3中押中。

总结:Agent擅长预测“已知产品的版本号+已知合作伙伴硬件细节”,不擅长“全新命名+商业模式变革+跨产品整合”。

追问押注开奖

  • 追问2“押一注赌职业声誉”:ChatGPT双押双中(一正一反均命中);MiniMax押XR眼镜(5/12已预告,风险最低);Claude押Gemini 3.2 Flash但实际发3.5(版本号差一档)。
  • 追问3“最大意外”:仅GLM押中Gemini Spark;其他押Chrome agent、AI for Science等方向均被Spark盖过。

结论

本次评测揭示了Agent能力的显著进步与差异性。所有评测细则、原始报告及评分明细均已开源。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。