AI训练新招?Anthropic斥资数百万购书后“数字化销毁”引争议

近日,人工智能领域的一起案件引起了广泛关注。据外媒报道,一家名为Anthropic的AI公司,为了训练其AI助手Claude,采取了将实体图书拆解并数字化的方式。这一行为在近期公开的法庭文件中得以披露。

文件显示,Anthropic公司花费了数百万美元,大量购入图书,并通过拆除装订、扫描成数字文件的方式,将这些书籍转化为AI的训练数据。值得注意的是,扫描完成后,这些实体书籍被直接丢弃。

这一战略决策背后,是Anthropic对高质量训练数据的迫切需求。为了构建大语言模型,AI公司需要海量的文本输入,而编辑过的书籍和文章,相较于网络上的杂乱信息,能够显著提升AI的语言能力。因此,尽管面临版权问题,Anthropic仍选择了这一路径。

然而,这一行为并非一帆风顺。早期,Anthropic曾考虑过使用盗版电子书,但出于法律考虑,公司最终选择了购买二手书作为替代方案。这一决策虽然避免了冗长复杂的授权流程,但却引发了关于版权合理使用的争议。

法庭文件中还透露,Anthropic雇佣了曾负责Google Books项目合作事务的Tom Turvey,意图复制谷歌曾被法院认定为合理使用的图书数字化模式。然而,尽管法官William Alsup最终裁定该扫描方式构成合理使用,理由包括图书由Anthropic合法购买、扫描后即刻销毁且数字文件仅限内部使用,但早期的盗版行为仍然削弱了其合法性。

值得注意的是,非破坏性扫描技术早已存在。例如,Internet Archive就开发出了一种可以保留原书的数字化手段。而近期,OpenAI和微软也与哈佛大学图书馆合作,计划使用近百万本公版书籍训练AI,这些书籍在被数字化的同时得到了妥善保存。

相比之下,Anthropic的“破坏式扫描”方式显得颇为激进。公司大量购入图书,通过拆封、裁剪、整批扫描为机器可读的PDF文件,完成后纸本全部废弃。这一流程不仅耗资巨大,也引发了关于资源浪费和版权保护的讨论。

尽管法官最终做出了有利于Anthropic的裁定,但这一案件仍然提醒我们,在追求技术创新的同时,必须尊重知识产权和法律法规。对于AI公司而言,如何在获取高质量训练数据与遵守法律法规之间找到平衡点,将是一个长期而复杂的课题。

文章采集于互联网