当前位置: 首页 » 资讯 » 科技头条 » 正文

“免费午餐”到头了?欧盟调查谷歌AI优势,直指其利用搜索爬虫无偿获取训练数据

IP属地 中国·北京 华尔街见闻官方 时间:2025-12-10 18:23:51

欧盟正在调查谷歌是否利用其搜索引擎的主导地位,通过网络爬虫无偿获取内容用于AI训练,从而在人工智能竞争中获得不公平优势。

12月10日,据彭博社报道,欧盟监管机构已对谷歌推出的AI Overviews和AI Mode功能启动调查,以确定其是否对内容创作者施加了不公平条款,使其AI模型相较竞争对手占据优势。

调查焦点在于,当OpenAI、Anthropic、亚马逊等AI竞争对手花费数亿美元与出版商达成授权协议以获取训练数据时,谷歌却通过为Google Search服务的网络爬虫Googlebot免费获取整个互联网的内容。

这一优势帮助谷歌在ChatGPT推出后迅速追赶上对手。在被OpenAI的ChatGPT打了个措手不及后,Alphabet旗下的谷歌实现了快速追赶,其AI模型目前已达到竞争对手的水平。

报道指出,但问题在于,谷歌是否通过公平手段实现了这一加速发展。如果监管机构认定其做法不当并强制改变,可能会损害谷歌的AI前景。

谷歌的"双重标准":免费获取vs付费竞争

报道称,谷歌在AI训练数据获取上享有独特优势。该公司依赖名为Googlebot的自动化程序浏览网页并为其搜索引擎建立索引,这一爬虫将发现的所有内容整理到谷歌庞大的可搜索索引中。

与此同时,谷歌使用同一程序为其Gemini聊天机器人和AI Overviews背后的模型提供训练数据。这意味着,当其他AI公司为使用高质量数据训练AI而付费时,谷歌却免费获得这些资源。它用于索引全球信息的程序同时也在帮助训练其AI系统。

Cloudflare首席执行官Matthew Prince在今年早些时候的彭博科技峰会上表示:"谷歌在说,我们对世界上所有内容都拥有天赋权利,即使我们不为此付费。"

而问题进一步复杂化的是,由于用户现在更多依赖AI摘要获取信息而非点击搜索结果中的链接,网站所有者的流量出现下降。这创造了一个两难境地:

阻止谷歌爬虫可能导致网站在普通搜索结果中不被收录,但允许谷歌使用其内容训练AI系统却意味着失去获得报酬的机会。

报道指出,更糟糕的是,谷歌今年早些时候在法庭上披露,由于组织架构上的问题,即使网站选择退出,谷歌仍会使用其内容进行AI训练。出版商实际上处于被绑架状态:要么接受内容被免费使用,要么冒着在搜索结果中消失的风险。

监管方案浮现:强制分离搜索与AI爬虫

据彭博报道,Matthew Prince一直在引导欧洲监管机构采取一个简洁而优雅的解决方案:

强制谷歌仅将Googlebot用于搜索,并创建一个独立的网络爬虫专门用于抓取AI Overviews所需内容。这样,出版商可以正确地选择退出或要求补偿。

从技术角度看,谷歌工程师可以轻松构建一个具有不同标识符的爬虫,让出版商能够单独屏蔽。但Alphabet将抵制任何迫使其像其他公司一样协商并支付AI训练内容费用的措施。

这一方案的逻辑在于,如果英伟达可以为芯片收费,工程师可以为他们的时间和智力付出收费,那么网站出版商也应该能够为其内容输出收费。

报道指出,强制分离将创造一个更加公平的竞争环境,让所有AI公司在获取训练数据方面面临相同的成本结构。

据报道,谷歌称欧盟的调查"有可能扼杀比以往任何时候都更具竞争性的市场创新"。然而,现实情况恰恰相反:

AI繁荣本应推动一个拥有数百家可行公司的竞争性市场,就像最初的互联网繁荣一样。但是它正朝着将利润集中在谷歌等现有巨头手中的方向发展。

分析指出,通过Googlebot进行的"双重利用"只是谷歌如何利用其主导地位进一步巩固自身优势的最新例证。这种可能帮助谷歌如此迅速赶上竞争对手的潜在优势需要被消除,以创造真正公平的AI竞争环境。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。