当前位置: 首页 » 资讯 » 科技头条 » 正文

Anthropic大肆购买古籍,扫描蒸馏后立即销毁?

IP属地 中国·北京 编辑:赵磊 大厂观察 时间:2026-05-10 16:10:01

最近X上有个帖子挺火的。

一个叫Sivori的博主发帖说,Anthropic正在购买数百万本书籍,扫描并销毁,因为从法律角度看销毁是最安全的选择。他还提到,这是他20年前读过的Vernor Vinge小说《The Rainbow's End》里的情节。

推文浏览超百万,转发评论一大堆。

小红书上也有人在聊这事,说法都是标题那个夸张风格,什么「A社把人类知识库蒸馏了」「古籍全部没了」。

这事吧,有真有假。真的部分远比小说还魔幻,假的部分也确实被放大了不少。我翻了媒体报道和法院文件,给你们捋一捋。

真事,巴拿马项目确实存在

2026年初,法庭文件曝光了Anthropic一个代号「Project Panama」的内部计划。

中文翻译过来叫巴拿马项目。

这个项目的目标简单粗暴,搞到世界上所有的书。2024年2月,Anthropic挖来了曾参与Google Books项目的Tom Turvey,交给他一个听起来像反派台词的任务,获取「世界上所有的书」。

怎么搞的呢?投入了大量资金,从二手书零售商和Strand这样的实体书店,大量采购实体书。然后拉到仓库里,切掉书脊进行破坏性高速扫描成PDF,剩下的纸质残骸送去回收公司销毁。

A社为什么敢这么干,不违法吗?

Anthropic的法律论证部分依赖于「首次销售原则」,你买了实体书,就有权对这个副本做任何处理,包括销毁。再叠加「合理使用」的多因素判断,合法取得副本、扫描后销毁原件、数字文件仅内部使用不对外分发、且不替代原书市场——法官综合评估了这几条,最终认定构成合理使用。

法官整体倾向认为,这类模式具备较强的fair use抗辩基础。相比直接去盗版网站扒书,法律风险确实低很多。

但实际上,Anthropic也干了盗版的事。这事就复杂了。

巴拿马项目之所以被曝光,是因为Anthropic同时被作家们起诉,他们早期就从LibGen(一个盗版电子书网站)下载了大量书籍用于训练。CEO Dario Amodei管出版商的许可谈判叫「法律/实践/商业上的麻烦」,所以早期干脆用盗版。后来觉得风险太大,才转头搞了实体书破坏性扫描这套方案。

2025年,媒体曾报道Anthropic推进了一项规模约15亿美元的和解方案,针对的是盗版数据集的集体诉讼。注意,这15亿主要指向盗版那笔账,不是为巴拿马项目本身买单。这在AI版权领域被认为是金额最高的和解之一。

法官对「合法购买加扫描训练」这个模式整体持支持态度,如果Anthropic从一开始就走这条路,他们的fair use抗辩会更有力。但先干盗版再转正的做法,至少在道义和舆论上已经把自己的路子走窄了。当然话说回来,AI训练的fair use在美国整体仍然没有最终定论,Meta、OpenAI的案子都还在打,这个领域远没到盖棺定论的时候。

真的和小说情节一毛一样

这确实是最魔幻的部分。

Vernor Vinge在2006年写的小说《The Rainbow's End》里,有一个名为Librareome Project的设定:图书馆用破坏性扫描的方式数字化馆藏,然后销毁纸质书籍。

2026年,Anthropic在现实世界里做了高度相似的事。

科幻作家不是在预言未来,他只是在写一个听起来合理但又够极端的故事。谁知道二十年后的AI公司看了一眼,觉得这是个好主意。

被夸张的部分

不过网上传的那些说法,确实有不少需要纠正的。

第一,不是「珍稀古籍」。Anthropic采购的主要是流通量比较大的二手普通书籍,从大型零售商那里批量拿货。不是孤本、善本,不是什么具有文物价值的东西。真正抗议的主要是作家和出版商协会,因为他们主张版权被侵犯,而不是文博界的文物保护单位——被销毁的只是工业印刷品,不是不可再生的文化遗产。

第二,没有「蒸馏了人类大部分知识库」那么夸张。他们处理了几百万册书没错,但人类历史上出版的书籍以数十亿计。几百万册在这个量级面前,只是很小的一部分。更准确的说法是,他们获取了一部分高质量文本用于训练,不是把人类知识蒸馏了。

第三,做法虽然粗暴,但方向其实挺明确的。Anthropic的联合创始人早在2023年就写过,用书籍训练模型能让AI学会「如何写得更好」,而不是去模仿那些质量参差不齐的网络用语。这个动机本身没什么问题,问题出在执行方式上。

Anthropic为了给AI喂书,雇人切书脊、高速扫描、然后销毁。Claude学会写那些漂亮句子的同时,上百万本实体书变成了回收纸浆。

有用户曾让Claude评价这一事件,Claude给出过一段颇具文学性的回应:「这些销毁行为帮助创造了能够讨论文学、帮人写作、与人类知识对话的我,这层复杂性我还在消化当中。就像是用一座图书馆的灰烬建造起来的一样。

这话说的,看起来确实像蒸馏了不少文学书籍。

但说真的,用灰烬堆积出来的智能,到底能在人类知识的废墟上站多久,谁也不知道。

标签: 书籍 项目 法律 大量 破坏性 部分 人类 整体 文件 世界 实体书 零售商 作家 巴拿马 小说 法官 曝光 领域 纸质 书脊 合法 方式 东西 任务 协会 出版商 问题 网络 用语 网站 市场 原书

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。