当前位置: 首页 » 资讯 » 科技头条 » 正文

爬虫遇上大模型,是碰撞火花还是掉进水坑?

IP属地 中国·北京 编辑:任飞扬 书圈 时间:2025-09-02 12:24:29

爬虫产生于互联网初期,随着互联网技术、大数据技术与应用的发展而得到快速进化。进入了大模型时代,我们也不禁要问: 在大模型时代,爬虫能做什么,爬虫会被时代抛弃吗?本文就聊聊这个问题。先说结论,爬虫作为一种经典的互联网技术,在大模型时代仍是必不可少的技术,但存在很多挑战。

大模型给爬虫带来的机遇、任务

一、大模型的联网搜索离不开爬虫

大模型本质上是一种预训练模型,也就是先用大量语料训练过。然而由于信息更新迭代很快,大模型不可能及时跟上这种实时更新的信息。同时,在面对用户各种复杂问题时,基于语言模型的概率生成机制,大模型也很难准确地回答问题。在这两方面的驱动下,我们可以看到 大模型已经离不开联网搜索。

而这项功能的主要技术手段就是爬虫。大模型对用户的问题进行关键词提取,并到搜索引擎(如阿里夸克)检索,最后大模型对检索结果进行分析整合。当我们自己本地部署大模型应用时,就可以需要根据自己的需求编写实时性更高的爬虫系统,以满足大模型应用需求。

二、大模型智能体应用

智能体是指能够感知环境并自主采取行动以实现特定目标的实体,它并不是一个新概念,关于智能体的自主性、反应性、主动性、社会性和进化性这5个基本属性,也是很早就提出来的。但是直到大模型的出现,基于大模型的智能体才具备实现这5个属性的能力,因此许多大模型也都提供了搭建智能体的创建工具或平台。对于特定领域的智能体,通常需要提供知识库、语料给它,而这些 知识的收集处理通常离不开爬虫技术。

三、大模型的训练和微调

GPT-4训练数据量达13万亿Token,这么大的量离不开互联网大数据。大模型的大部分语料都是来自第三方爬虫CommonCrawl所抓取的语料,但是这个爬虫并非的是互联网全量抓取,也并非针对一些网站的持续采集,而是有一定随机性。CommonCrawl侧重于英文语料,中文占比很少。为了构建自己的大模型,也就需要采集相关的语料。

四、传统应用

虽然大模型能力很强,但是它并不能处理我们所有的事务。在大模型时代,我们仍需要进行舆情监测、仍需要进行社交网络分析等等各类传统任务。在这些应用中,即使通过大模型的联网搜索也是无法满足我们要求。因此,针对这些任务仍需要我们按照互联网大数据的处理逻辑进行。例如, 网络舆情分析、知识图谱构建、社交网络分析、金融舆情分析、商品评论分析等等,都遵循了爬虫采集、监测、Web内容处理、分析、挖掘等主要环节。

大模型给爬虫带来的挑战

1.数据污染

2.合规性更显重要

随着《网络安全法》、《数据安全法》等法律法规的实施,违规爬取可能面临法律诉讼。未经授权抓取某电商平台数据用于训练大模型,可能被认定为侵犯商业秘密、版权或隐私权。抓取用户生成内容(UGC)需遵守GDPR、CCPA等隐私法规,未经同意抓取社交媒体用户数据,则可能面临高额罚款。

3.LLM的高成本

,在考虑大模型时代的爬虫技术与应用方法之后,提出了爬虫的五个技术特性,并围绕普通爬虫、动态爬虫、主题爬虫、微博爬虫、DeepWeb爬虫以及相关数据处理进行了内容编写,并提供大量爬虫及互联网大数据分析的代码和案例,是当前爬虫及应用值得信赖的教材。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。