AI训练新招？Anthropic斥资数百万购书后“数字化销毁”引争议

近日，人工智能领域的一起案件引起了广泛关注。据外媒报道，一家名为Anthropic的AI公司，为了训练其AI助手Claude，采取了将实体图书拆解并数字化的方式。这一行为在近期公开的法庭文件中得以披露。

文件显示，Anthropic公司花费了数百万美元，大量购入图书，并通过拆除装订、扫描成数字文件的方式，将这些书籍转化为AI的训练数据。值得注意的是，扫描完成后，这些实体书籍被直接丢弃。

这一战略决策背后，是Anthropic对高质量训练数据的迫切需求。为了构建大语言模型，AI公司需要海量的文本输入，而编辑过的书籍和文章，相较于网络上的杂乱信息，能够显著提升AI的语言能力。因此，尽管面临版权问题，Anthropic仍选择了这一路径。

然而，这一行为并非一帆风顺。早期，Anthropic曾考虑过使用盗版电子书，但出于法律考虑，公司最终选择了购买二手书作为替代方案。这一决策虽然避免了冗长复杂的授权流程，但却引发了关于版权合理使用的争议。

法庭文件中还透露，Anthropic雇佣了曾负责Google Books项目合作事务的Tom Turvey，意图复制谷歌曾被法院认定为合理使用的图书数字化模式。然而，尽管法官William Alsup最终裁定该扫描方式构成合理使用，理由包括图书由Anthropic合法购买、扫描后即刻销毁且数字文件仅限内部使用，但早期的盗版行为仍然削弱了其合法性。

值得注意的是，非破坏性扫描技术早已存在。例如，Internet Archive就开发出了一种可以保留原书的数字化手段。而近期，OpenAI和微软也与哈佛大学图书馆合作，计划使用近百万本公版书籍训练AI，这些书籍在被数字化的同时得到了妥善保存。

相比之下，Anthropic的“破坏式扫描”方式显得颇为激进。公司大量购入图书，通过拆封、裁剪、整批扫描为机器可读的PDF文件，完成后纸本全部废弃。这一流程不仅耗资巨大，也引发了关于资源浪费和版权保护的讨论。

尽管法官最终做出了有利于Anthropic的裁定，但这一案件仍然提醒我们，在追求技术创新的同时，必须尊重知识产权和法律法规。对于AI公司而言，如何在获取高质量训练数据与遵守法律法规之间找到平衡点，将是一个长期而复杂的课题。

文章采集于互联网

搜索

AI训练新招？Anthropic斥资数百万购书后“数字化销毁”引争议