七大财经媒体联合声明禁AI训练,法律边界成最大争议
2026/04/27 19:07阅读量 11
《证券时报》等七家主流财经媒体联合声明禁止将原创内容用于AI模型训练,但现行法律对AI抓取公开数据的边界尚不明确。现有判例多聚焦于AI生成内容的侵权,而针对训练数据使用的司法定论仍缺失,且robots协议在技术层面难以有效拦截AI爬虫。媒体此举意在推动与AI公司谈判数据授权或分成,亟需立法或判例明确红线以平衡产业发展与版权保护。
事件概述
近日,《证券时报》、《上海证券报》、《证券日报》、《中国基金报》、《21世纪经济报道》、第一财经集团和《每日经济新闻》七家主流财经媒体发布联合声明,禁止未经书面许可将原创内容用于机器学习、数据挖掘及大模型训练等AI应用场景。然而,该声明的实际效力面临法律与技术的双重挑战。
核心事实分析
1. Robots协议的技术失效
传统互联网中,robots.txt文件是约束爬虫的第一道防线,但在本次事件中暴露出明显漏洞:
- 配置缺失:部分媒体(如《证券时报》)的robots页面返回404错误,无实际指引;《21世纪经济报道》则采用全开放配置。
- 绕过手段多样:AI爬虫可通过历史镜像(Internet Archive)、搜索引擎缓存、伪装User-Agent、轮换IP地址、模拟真实浏览器行为等至少6种方式规避协议限制。
- 法律依据模糊:虽然北京一中院曾在百度诉奇虎360案中认定违反robots协议可依据《反不正当竞争法》追责,但这主要基于商业道德规范,尚未形成针对AI训练的强制性技术标准。
2. 法律效力的不确定性
- 立法空白:现行《著作权法》未明确界定利用内容训练AI是否构成侵权;《生成式人工智能服务管理暂行办法》虽要求尊重知识产权,但缺乏具体的合规操作指引。
- 司法停滞:国内多起版权人起诉AI公司训练侵权的案件审理长期停滞,司法机关可能有意为产业发展保留空间。
- 判例局限:现有判例(如奥特曼形象案)主要集中在AI输出端(生成内容侵权),对于训练端的数据抓取行为尚无明确的司法定论。
3. 数据用途决定风险等级
AI对财经内容的利用模式不同,法律风险差异显著:
- 训练模式:模型生成内容为内部知识的再创造,与原文通常不构成实质性相似,被认定为“合理使用”的可能性较高。
- RAG实时检索模式(Retrieval-Augmented Generation):AI直接抓取并复刻付费内容(如A股分析)供用户即时消费,替代性强,严重侵害原作潜在市场价值,侵权风险陡增。纽约时报诉OpenAI案即针对此类绕过付费墙展示摘要的行为。
4. 法律红线与刑事风险
当前法律环境下存在两条明确的高风险红线:
- 绕过付费墙:破解登录验证、解析接口等技术措施直接读取付费内容,属于直接侵权行为。
- 高频抓取致系统崩溃:若导致网站瘫痪,理论上可能涉嫌破坏计算机信息系统罪。不过,考虑到AI产业受政策扶持,维权过程中可能存在多方制衡。
结论与展望
此次联合声明的核心诉求并非单纯封杀AI,而是旨在迫使AI公司回到谈判桌,探索数据授权许可或利益分享的商业模式。随着AI浪潮对传统内容产业的冲击加剧,立法机关和法院亟需通过里程碑式的立法或判决,为AI训练数据的版权问题划定清晰的法律红线。
