Salesforce 公司因其 xGen 系列大语言模型涉嫌使用盗版书籍进行训练而被两位小说家提起集体诉讼。该诉讼于10月15日在旧金山的美国地方法院提起,原告莫莉・坦泽(Molly Tanzer)和詹妮弗・吉尔摩(Jennifer Gilmore)指控 Salesforce 未经授权下载、存储、复制和使用了大量受版权保护的书籍数据集,以开发其 AI 模型。
这一事件并非孤例,类似的侵权指控已在 AI 行业屡见不鲜。就在上个月,生成性 AI 公司 Anthropic 也因使用数百万本盗版书籍进行模型训练而达成了15亿美元的和解。对此,伊利诺伊大学芝加哥分校的数据科学与 AI 战略副校长迈克尔・贝内特(Michael Bennett)表示,Salesforce 的案子与 Anthropic 的案件非常相似。在 Anthropic 的案件中,法官裁定合法获得的作品用于训练模型的行为属于 “合理使用”,而非法获得的作品则不享有此保护。
目前,Salesforce 的案件很可能会通过和解方式解决,类似于 Anthropic 的和解结果。RPA2AI 的创始人兼分析师卡夏普・孔佩拉(Kashyap Kompella)认为,这一事件表明版权拥有者在法律上具备一定的筹码,而训练数据的来源问题既是商业问题也是法律问题。
此外,这场诉讼可能会对 Salesforce 产生进一步的负面影响,尤其是让其企业客户对其模型及训练数据集的信任度产生疑虑。孔佩拉强调,企业客户需要确认其 AI 供应商所使用的数据源是经过许可、可审计且合理的,这对企业来说是至关重要的。
类似的诉讼可能会成为更广泛的 AI 技术应用的障碍,企业在选择 AI 供应商时,必须深入了解训练数据的来源以及相关的赔偿条款。
划重点:
– 📚 Salesforce 因涉嫌使用盗版书籍训练 AI 模型而被起诉。
– ⚖️ 该案件可能通过和解方式解决,类似于 Anthropic 案件的结果。
– 🔍 企业客户对 AI 模型的信任度可能受到影响,需确保数据来源的合法性。