你大概做过无数次这件事:在登录银行账户、注册邮箱或者提交一个表单时,屏幕上弹出一组模糊的街景照片,要求你“点击所有包含红绿灯的图片”或者“选出每一个人行横道”,反复证明自己“不是机器人”。几秒钟后,验证通过,你继续你的操作,不会再多想一秒。
但你有没有想过,你点击的那些红绿灯和人行横道的图片,来自哪里?又去了哪里?
最近,一篇博文把这个问题再次推到了聚光灯下。用户 @sharbel 撰写了一篇长文,详细梳理了 reCAPTCHA(re-Completely Automated Public Turing test to tell Computers and Humans Apart)从诞生到今天的演变,并提出了一个尖锐的论点:过去十几年里,数以亿计的互联网用户在不知情的情况下,免费为 Google 标注了海量图像数据,而这些数据最终流入了 Google Maps 和 Waymo 自动驾驶系统的训练管线。
这不是什么新近泄露的秘密。reCAPTCHA 作为数据采集工具的双重身份,在技术圈里已经是公开的常识。Google 甚至在自己的 reCAPTCHA 开发者网站上写得很清楚:reCAPTCHA 会“将用户解决验证码所花费的时间积极用于文本数字化、图像标注和构建机器学习数据集”。但对绝大多数普通用户来说,他们从未读过这行字。随着如今 AI 数据的价值愈发重要,这个问题随着这条博文再度进入公众视野。
故事要从 2000 年讲起。那时候的互联网正被垃圾邮件和自动注册机器人搞得一团糟。卡内基梅隆大学的危地马拉裔计算机科学家 Luis von Ahn 和他的团队提出了一种区分人类和机器的方法,后来被命名为 CAPTCHA。原理很直观:给用户展示一段扭曲变形的文字,人类能看懂,机器识别不了。
![]()
图丨Luis von Ahn(MIT News)
Von Ahn 很快意识到,全世界每天有几亿人在做这件事,每次花大约十秒钟。这些认知劳动加在一起是一个惊人的数字,全部被浪费了。2007 年,他推出了 reCAPTCHA。核心改动很简单:验证码里展示的不再是随机生成的乱码,而是两个词。一个是系统已知的答案,用来验证你是不是人;另一个则来自扫描的旧书籍和报纸,是光学字符识别(OCR)软件无法辨认的文本。你输入答案的同时,也在帮助把这些纸质文字转化成数字文本。
这个设计确实称得上一石二鸟。reCAPTCHA 被部署到超过十万个网站上,到 2011 年,它已经完成了整个 Google Books 档案的数字化,还帮助转录了《纽约时报》从 1851 年至今超过 1,300 万篇文章。Von Ahn 后来在接受 NPR 采访时说,他把 CAPTCHA 的创意免费送了出去,而 reCAPTCHA 被 Google 在 2009 年收购,价格据他本人透露是“数千万美元级别”。收购之后,Von Ahn 又去做了另一件事:创办多邻国,继续用众包的逻辑做语言教育。
Google 拿到 reCAPTCHA 之后,事情开始转向。
大约在 2012 年,扭曲文字时代结束了。Google 当时面对的新挑战是:Street View 拍摄车已经在全球几乎每条道路上跑过了,积累了海量街景照片。但照片本身只是原始像素,要让这些数据对导航和地图服务有用,系统需要知道照片里有什么,哪个是门牌号,哪个是路标,哪个是店面招牌。于是 reCAPTCHA v2 出现了。用户不再输入文字,取而代之的是图片网格。“点击所有包含交通信号灯的方块”“选出每个人行横道”“识别所有店面”。
这些图片来自 Google Street View。用户每一次点击都在告诉 Google 的计算机视觉模型:这块像素区域是红绿灯,这个形状是斑马线。Google 以免费安全服务的名义,将这个工具嵌入了银行、政府网站、电商平台和几乎所有需要登录验证的网页。你别无选择。想访问你的账户?先帮我标注几张图片。
规模有多大?据多个来源估计,reCAPTCHA 在高峰期每天被解答约 2 亿次。加州大学尔湾分校(UC Irvine)2023 年发表的一篇论文《Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2》给出了更系统的计算:从部署至今的 13 年多时间里,人类总共花费了约 8.19 亿小时在 reCAPTCHA 上,按工资折算至少相当于 61 亿美元。
研究团队还估算,reCAPTCHAv2 产生的追踪 Cookie 数据,终身价值高达 8,880 亿美元。论文的主要作者 Andrew Searles 在接受 The Register 采访时直言:他认为 reCAPTCHA 的真正目的是收集用户信息和免费劳动。
![]()
图丨相关论文(arXiv)
这些标注数据去了哪里?最显而易见的方向是 Google Maps。它今天能自动识别路标、读取门牌号、理解城市地理结构,背后依赖的计算机视觉能力,有一部分基础就来自 reCAPTCHA 用户年复一年的标注积累。
更受争议的方向是 Waymo。Waymo 的前身是 Google 在 2009 年启动的自动驾驶项目,2016 年独立为 Alphabet 旗下子公司。一辆自动驾驶汽车要安全运行,必须以接近完美的准确率识别交通灯、人行横道、行人、停车标志等成千上万种视觉模式。
而 reCAPTCHA 要求用户识别的,恰恰就是这些元素。有人推测 reCAPTCHA 数据被用于训练 Waymo 的自动驾驶系统,但一位未具名的 Google 代表否认了这一点,声称截至 2021 年中,这些数据仅用于改进 Google Maps。UC Irvine 的研究者在论文中则认为,reCAPTCHA 提出的图像识别任务,如辨认红绿灯和自行车,看起来非常像是在为自动驾驶收集训练数据。
Google 从未正式确认 reCAPTCHA 数据直接进入了 Waymo 的训练流程。这一点需要说清楚。不过从外部来看,质疑并非没有道理。reCAPTCHA v2 让用户标注的物体类别,与自动驾驶感知系统需要识别的物体类别高度重合。而 Google/Alphabet 同时拥有 reCAPTCHA 和 Waymo,内部数据管线是否有交叉使用,外界无从审计。
Waymo 如今的体量让这个问题变得更加敏感。截至 2026 年 2 月,Waymo 已完成超过 2,000 万次付费载客,自主驾驶里程超过 2 亿英里。仅 2025 年一年,它的年度载客量就增长了两倍,达到 1,500 万次。
2026 年 2 月,Waymo 完成了一轮 160 亿美元的融资,估值达到约 1,260 亿美元,超过了大多数全球主流车企。它计划在 2026 年进入包括伦敦和东京在内的 20 多个新城市。从一个 Google 内部的研究项目,到一家估值千亿美元的独立公司,Waymo 走了不过十多年。
![]()
图丨 Waymo 无人驾驶出租车(Waymo)
与此同时,职业数据标注是一个相当昂贵的行业。Scale AI、Appen、Labelbox 等公司雇佣了大量工人来完成图像标注工作,每小时的报酬从几美元到几十美元不等。Google 通过 reCAPTCHA 做到了同样的事,只是标注者不是被雇佣的工人,而是想登录自己银行账户的普通人。
没有报酬,没有合同,甚至不需要征得同意。reCAPTCHA 的服务条款当然存在,但绝大多数用户既没有阅读过,也无法选择拒绝,因为它不是 Google 的产品页面上的可选项,而是横亘在你和你想访问的任何网站之间的一道必经关卡。
2018 年,Google 推出了 reCAPTCHA v3。这一版本不再给用户展示任何验证挑战。它在后台默默运行,通过监测你的鼠标轨迹、滚动模式、悬停时长和浏览器环境来判断你是不是人类。
UC Irvine 的研究发现,reCAPTCHA 广泛监控用户的 Cookie、浏览历史和浏览器环境信息,包括画布渲染、屏幕分辨率、鼠标移动和用户代理数据,所有这些都可以被用于广告和追踪。Google 坚称这些数据不会被用于个性化广告。但 2020 年,Cloudflare 出于隐私担忧从 reCAPTCHA 切换到了竞争对手 hCaptcha,也说明业界并非所有人都对 Google 的说法买账。
更有意思的是,UC Irvine 的研究发现,早在 2016 年就有研究者能以 70% 的准确率击败 reCAPTCHA v2 的图像验证,而 v2 的复选框验证更是可以被 100% 破解。
换句话说,reCAPTCHA 作为安全工具的有效性在持续下降,但它作为数据采集和用户追踪工具的功能却一直在运转。研究者的结论相当犀利:reCAPTCHA 本质上是一个伪装成安全服务的免费图像标注劳动力来源和追踪 Cookie 农场。
需要指出的是,这个结论不代表学术界的共识。也有人认为,reCAPTCHA 确实在防御层面提供了一定价值,至少增加了机器人的攻击成本,不应该完全否定它的安全功能。Google 自身的立场也一直是,reCAPTCHA 首先是一个安全产品。
但争论的核心不在于 reCAPTCHA 有没有安全价值。核心问题是:当一个安全工具同时也是数据采集工具时,用户是否应该被告知?是否应该有选择权?
Luis von Ahn 最初发明 reCAPTCHA 的想法其实很漂亮:既然人们已经在做验证了,为什么不顺便把这些认知劳动用在有益的事情上?帮助数字化全世界的书籍,这是一个能让人心生敬意的目标。但从 Google 收购 reCAPTCHA 之后的演变来看,“有益”的定义被悄悄替换了。数字化公共图书馆的藏书是公益,训练价值千亿美元的商业产品则是另一回事。
奥地利的联邦法院已经裁定 reCAPTCHA 违反了 GDPR,因为它在未经充分知情同意的情况下向 Google 传输用户数据。欧洲的监管压力在上升,但在全球范围内,reCAPTCHA 仍然部署在数百万个网站上,每天默默地运行着。
运营/排版:何晨龙





京公网安备 11011402013531号