2025-12-19 08:25:23

被指在 AI 训练中滥用盗版书籍,Adobe 面临集体诉讼

摘要
作家Elizabeth Lyon发起了一项针对Adobe的集体诉讼,指控Adobe在训练其SlimLM语言模型时使用了包括Lyon作品在内的大量盗版书籍。Lyon是俄

作家Elizabeth Lyon发起了一项针对Adobe的集体诉讼,指控Adobe在训练其SlimLM语言模型时使用了包括Lyon作品在内的大量盗版书籍。Lyon是俄勒冈州的一名非虚构作家,出版过多本写作指导类书籍。

Adobe解释称,SlimLM是一款面向移动设备文档辅助的小型语言模型,预训练基于Cerebras于2023年发布的SlimPajama-627B数据集。该数据集被描述为一个去重、多语料库的开源集合。然而,诉讼指出,SlimPajama的数据来源存在问题,它是基于RedPajama数据集生成的,而后者包含了有争议的Books3数据集。Books3收录了约19.1万本书籍,其中许多受版权保护。

围绕Books3和RedPajama的争议不仅限于Adobe,苹果和Salesforce也因涉嫌使用这些数据集进行AI训练而遭到起诉。随着AI技术的发展,对于训练数据的需求日益增加,这导致了关于数据来源合法性的法律问题频发。今年9月,Anthropic同意向多位作者支付15亿美元以解决关于Claude训练过程中使用未经授权内容的纠纷。尽管如此,行业内有关AI训练版权的挑战仍在继续。

科技趋势
时事资讯
回顶部