学术出版商首次联合起诉Meta:指控使用盗版论文训练Llama大模型
2026/05/13 11:10阅读量 3
爱思唯尔、阿歇特、麦克米伦等多家出版商及作家在纽约南区法院对Meta提起诉讼,指控其未经授权大量复制受版权保护的科研论文,用于训练Llama大语言模型。Meta引用“合理使用”原则抗辩。这是主流出版集团首次针对AI企业发起版权诉讼。
事件概述
2026年5月5日,学术出版巨头爱思唯尔(Elsevier)、法国出版集团阿歇特(Hachette)、英国出版集团麦克米伦(Macmillan)以及美国小说家Scott Turow等多人作为原告,在纽约南区法院正式起诉Meta及其CEO扎克伯格。原告指控Meta在训练Llama大语言模型过程中,大规模盗用受版权保护的学术论文和出版物内容。
核心指控
诉状指出Meta训练Llama主要依赖两大数据来源:
- Common Crawl通用爬虫数据集:该数据集包含数十亿网页内容,原告称其中混入了大量未经授权的付费期刊摘要和全文。
- 盗版学术平台LibGen和Sci-Hub:Meta通过磁力下载、文件共享等方式,从这两个常年免费传播付费论文的网站获取学术资源。
许多证据来自此前“Kadrey v. Meta”案中流出的Meta内部员工邮件。该诉讼是美国出版商协会所称的“主流出版集团首次针对AI企业发起的版权维权行动”。
Meta的回应
Meta发言人表示将全力应诉,其核心抗辩理由为美国版权法中的“合理使用”(Fair Use)原则,主张利用版权内容训练AI属于“转化性使用”,不构成侵权。
相关背景
2025年,美国法院在一起针对Anthropic的案件中裁定,允许该公司在未获得作者许可的情况下使用合法购买的已出版书籍训练AI,理由即“转化性使用”有利于技术创新和公共利益。这是美国法院首次认可AI公司对书籍的使用权。目前,利用版权作品训练大语言模型是否合法仍缺乏明确的司法判例。
