当前位置: 首页 » 资讯 » 科技头条 » 正文

你点击我不是机器人的时候,都是在帮Google免费训练无人驾驶车

IP属地 中国·北京 DeepTech深科技 时间:2026-03-18 14:24:45

你大概做过无数次这件事:在登录银行账户、注册邮箱或者提交一个表单时,屏幕上弹出一组模糊的街景照片,要求你“点击所有包含红绿灯的图片”或者“选出每一个人行横道”,反复证明自己“不是机器人”。几秒钟后,验证通过,你继续你的操作,不会再多想一秒。

但你有没有想过,你点击的那些红绿灯和人行横道的图片,来自哪里?又去了哪里?

最近,一篇博文把这个问题再次推到了聚光灯下。用户 @sharbel 撰写了一篇长文,详细梳理了 reCAPTCHA(re-Completely Automated Public Turing test to tell Computers and Humans Apart)从诞生到今天的演变,并提出了一个尖锐的论点:过去十几年里,数以亿计的互联网用户在不知情的情况下,免费为 Google 标注了海量图像数据,而这些数据最终流入了 Google Maps 和 Waymo 自动驾驶系统的训练管线。

这不是什么新近泄露的秘密。reCAPTCHA 作为数据采集工具的双重身份,在技术圈里已经是公开的常识。Google 甚至在自己的 reCAPTCHA 开发者网站上写得很清楚:reCAPTCHA 会“将用户解决验证码所花费的时间积极用于文本数字化、图像标注和构建机器学习数据集”。但对绝大多数普通用户来说,他们从未读过这行字。随着如今 AI 数据的价值愈发重要,这个问题随着这条博文再度进入公众视野。

故事要从 2000 年讲起。那时候的互联网正被垃圾邮件和自动注册机器人搞得一团糟。卡内基梅隆大学的危地马拉裔计算机科学家 Luis von Ahn 和他的团队提出了一种区分人类和机器的方法,后来被命名为 CAPTCHA。原理很直观:给用户展示一段扭曲变形的文字,人类能看懂,机器识别不了。


图丨Luis von Ahn(MIT News)

Von Ahn 很快意识到,全世界每天有几亿人在做这件事,每次花大约十秒钟。这些认知劳动加在一起是一个惊人的数字,全部被浪费了。2007 年,他推出了 reCAPTCHA。核心改动很简单:验证码里展示的不再是随机生成的乱码,而是两个词。一个是系统已知的答案,用来验证你是不是人;另一个则来自扫描的旧书籍和报纸,是光学字符识别(OCR)软件无法辨认的文本。你输入答案的同时,也在帮助把这些纸质文字转化成数字文本。

这个设计确实称得上一石二鸟。reCAPTCHA 被部署到超过十万个网站上,到 2011 年,它已经完成了整个 Google Books 档案的数字化,还帮助转录了《纽约时报》从 1851 年至今超过 1,300 万篇文章。Von Ahn 后来在接受 NPR 采访时说,他把 CAPTCHA 的创意免费送了出去,而 reCAPTCHA 被 Google 在 2009 年收购,价格据他本人透露是“数千万美元级别”。收购之后,Von Ahn 又去做了另一件事:创办多邻国,继续用众包的逻辑做语言教育。

Google 拿到 reCAPTCHA 之后,事情开始转向。

大约在 2012 年,扭曲文字时代结束了。Google 当时面对的新挑战是:Street View 拍摄车已经在全球几乎每条道路上跑过了,积累了海量街景照片。但照片本身只是原始像素,要让这些数据对导航和地图服务有用,系统需要知道照片里有什么,哪个是门牌号,哪个是路标,哪个是店面招牌。于是 reCAPTCHA v2 出现了。用户不再输入文字,取而代之的是图片网格。“点击所有包含交通信号灯的方块”“选出每个人行横道”“识别所有店面”。

这些图片来自 Google Street View。用户每一次点击都在告诉 Google 的计算机视觉模型:这块像素区域是红绿灯,这个形状是斑马线。Google 以免费安全服务的名义,将这个工具嵌入了银行、政府网站、电商平台和几乎所有需要登录验证的网页。你别无选择。想访问你的账户?先帮我标注几张图片。

规模有多大?据多个来源估计,reCAPTCHA 在高峰期每天被解答约 2 亿次。加州大学尔湾分校(UC Irvine)2023 年发表的一篇论文《Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2》给出了更系统的计算:从部署至今的 13 年多时间里,人类总共花费了约 8.19 亿小时在 reCAPTCHA 上,按工资折算至少相当于 61 亿美元。

研究团队还估算,reCAPTCHAv2 产生的追踪 Cookie 数据,终身价值高达 8,880 亿美元。论文的主要作者 Andrew Searles 在接受 The Register 采访时直言:他认为 reCAPTCHA 的真正目的是收集用户信息和免费劳动。


图丨相关论文(arXiv)

这些标注数据去了哪里?最显而易见的方向是 Google Maps。它今天能自动识别路标、读取门牌号、理解城市地理结构,背后依赖的计算机视觉能力,有一部分基础就来自 reCAPTCHA 用户年复一年的标注积累。

更受争议的方向是 Waymo。Waymo 的前身是 Google 在 2009 年启动的自动驾驶项目,2016 年独立为 Alphabet 旗下子公司。一辆自动驾驶汽车要安全运行,必须以接近完美的准确率识别交通灯、人行横道、行人、停车标志等成千上万种视觉模式。

而 reCAPTCHA 要求用户识别的,恰恰就是这些元素。有人推测 reCAPTCHA 数据被用于训练 Waymo 的自动驾驶系统,但一位未具名的 Google 代表否认了这一点,声称截至 2021 年中,这些数据仅用于改进 Google Maps。UC Irvine 的研究者在论文中则认为,reCAPTCHA 提出的图像识别任务,如辨认红绿灯和自行车,看起来非常像是在为自动驾驶收集训练数据。

Google 从未正式确认 reCAPTCHA 数据直接进入了 Waymo 的训练流程。这一点需要说清楚。不过从外部来看,质疑并非没有道理。reCAPTCHA v2 让用户标注的物体类别,与自动驾驶感知系统需要识别的物体类别高度重合。而 Google/Alphabet 同时拥有 reCAPTCHA 和 Waymo,内部数据管线是否有交叉使用,外界无从审计。

Waymo 如今的体量让这个问题变得更加敏感。截至 2026 年 2 月,Waymo 已完成超过 2,000 万次付费载客,自主驾驶里程超过 2 亿英里。仅 2025 年一年,它的年度载客量就增长了两倍,达到 1,500 万次。

2026 年 2 月,Waymo 完成了一轮 160 亿美元的融资,估值达到约 1,260 亿美元,超过了大多数全球主流车企。它计划在 2026 年进入包括伦敦和东京在内的 20 多个新城市。从一个 Google 内部的研究项目,到一家估值千亿美元的独立公司,Waymo 走了不过十多年。


图丨 Waymo 无人驾驶出租车(Waymo)

与此同时,职业数据标注是一个相当昂贵的行业。Scale AI、Appen、Labelbox 等公司雇佣了大量工人来完成图像标注工作,每小时的报酬从几美元到几十美元不等。Google 通过 reCAPTCHA 做到了同样的事,只是标注者不是被雇佣的工人,而是想登录自己银行账户的普通人。

没有报酬,没有合同,甚至不需要征得同意。reCAPTCHA 的服务条款当然存在,但绝大多数用户既没有阅读过,也无法选择拒绝,因为它不是 Google 的产品页面上的可选项,而是横亘在你和你想访问的任何网站之间的一道必经关卡。

2018 年,Google 推出了 reCAPTCHA v3。这一版本不再给用户展示任何验证挑战。它在后台默默运行,通过监测你的鼠标轨迹、滚动模式、悬停时长和浏览器环境来判断你是不是人类。

UC Irvine 的研究发现,reCAPTCHA 广泛监控用户的 Cookie、浏览历史和浏览器环境信息,包括画布渲染、屏幕分辨率、鼠标移动和用户代理数据,所有这些都可以被用于广告和追踪。Google 坚称这些数据不会被用于个性化广告。但 2020 年,Cloudflare 出于隐私担忧从 reCAPTCHA 切换到了竞争对手 hCaptcha,也说明业界并非所有人都对 Google 的说法买账。

更有意思的是,UC Irvine 的研究发现,早在 2016 年就有研究者能以 70% 的准确率击败 reCAPTCHA v2 的图像验证,而 v2 的复选框验证更是可以被 100% 破解。

换句话说,reCAPTCHA 作为安全工具的有效性在持续下降,但它作为数据采集和用户追踪工具的功能却一直在运转。研究者的结论相当犀利:reCAPTCHA 本质上是一个伪装成安全服务的免费图像标注劳动力来源和追踪 Cookie 农场。

需要指出的是,这个结论不代表学术界的共识。也有人认为,reCAPTCHA 确实在防御层面提供了一定价值,至少增加了机器人的攻击成本,不应该完全否定它的安全功能。Google 自身的立场也一直是,reCAPTCHA 首先是一个安全产品。

但争论的核心不在于 reCAPTCHA 有没有安全价值。核心问题是:当一个安全工具同时也是数据采集工具时,用户是否应该被告知?是否应该有选择权?

Luis von Ahn 最初发明 reCAPTCHA 的想法其实很漂亮:既然人们已经在做验证了,为什么不顺便把这些认知劳动用在有益的事情上?帮助数字化全世界的书籍,这是一个能让人心生敬意的目标。但从 Google 收购 reCAPTCHA 之后的演变来看,“有益”的定义被悄悄替换了。数字化公共图书馆的藏书是公益,训练价值千亿美元的商业产品则是另一回事。

奥地利的联邦法院已经裁定 reCAPTCHA 违反了 GDPR,因为它在未经充分知情同意的情况下向 Google 传输用户数据。欧洲的监管压力在上升,但在全球范围内,reCAPTCHA 仍然部署在数百万个网站上,每天默默地运行着。

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。