Cloudflare重拳治理AI爬虫:默认屏蔽、分类拦截,普通创作者仍难获益
2026/07/05 12:06阅读量 2
Cloudflare宣布自2025年9月15日起,所有使用其服务的网站默认屏蔽混合用途AI爬虫,并将AI爬虫拆分为搜索、AI代理、AI训练三类,实行最严规则优先。同时推出“Pay Per Use”付费模式,试图建立AI内容交易市场。但分析指出,大出版商是主要受益者,普通创作者面临曝光与收益的两难,且OpenAI、Google等巨头尚未参与付费,大规模变革尚需时日。
事件概述
Cloudflare于7月1日发布博客,宣布自2025年9月15日起,所有使用其服务的网站将默认屏蔽混合用途的AI爬虫(即同时用于搜索和AI训练的爬虫)。此前规则为“默认允许”并允许站长手动屏蔽,新规彻底翻转逻辑,变为“默认屏蔽”并允许站长手动启用。
核心政策细节
- 爬虫分类:Cloudflare将AI爬虫划分为三类:
- Search:传统搜索引擎爬虫(如Googlebot)
- Agent:代表用户实时访问网页的AI代理(如ChatGPT)
- Training:大规模抓取内容用于模型训练的爬虫
- 规则执行:站长可对每类爬虫分别设置“允许”或“屏蔽”;若爬虫混合多用途(如Googlebot同时为搜索和AI服务),则按照最严格的规则执行——站长只要屏蔽“Training”,混合爬虫将一并被拦截。
- 背景数据:Cloudflare CEO Matthew Prince称,互联网bot流量已超过人类流量,比预期提前至2024年发生。各AI公司爬虫的回流比(爬取页面数/返回点击数)差距巨大:Google约14:1,OpenAI约1700:1,Anthropic约73000:1,搜索引擎时代的流量交换契约已失效。
“Pay Per Use”付费模式
Cloudflare将原有“按爬取次数付费”升级为“按价值付费”:当内容在AI系统中被用于生成回答或出现在AI搜索结果时,内容方才获得收益。初始合作伙伴为AI搜索公司Ceramic.ai和You.com。大型出版商(CondéNast、Reddit等)表示支持,认为这是“游戏规则的改变”。
争议与局限性
- Cloudflare自身角色矛盾:Cloudflare同时是规则制定者、执行者和市场参与者——它发布了自家的爬虫API(可抓取整个网站),并曾被出版商发现无法屏蔽自家的爬虫(后修复),被质疑“两边下注”。
- 普通创作者难获益:大出版商有谈判筹码,可直接与AI公司签许可协议。小创作者则面临两难:屏蔽AI爬虫可能降低曝光,不屏蔽则内容被无偿利用。数据显示,AI聊天机器人带来的引荐流量比传统搜索少约96%,用户点击引用来源的概率仅约1%。Google AI Overviews已使外链点击量下降约40%。即使“Pay Per Use”全面铺开,支付规模可能远无法弥补广告收入损失。
- 覆盖范围有限:Cloudflare管理全球约20%的网络流量,AI公司可将采集重心转向非Cloudflare站点。Google和Apple已提供形式上的选退工具,可能绕过拦截。
值得关注
Cloudflare将AI数据掠夺从暗处拉到明处,迫使AI公司明确爬取用途,推动规则透明化。但其政策的本质是构建以自身为枢纽的“AI内容税收站”,而非内容创作者的纯粹救世主。互联网的“收费站”正从搜索引擎转移到基础设施层,收费逻辑从流量交换转向分类规则和价值付费,但核心收费者的身份并未根本改变。
