爬虫产生于互联网初期,随着互联网技术、大数据技术与应用的发展而得到快速进化。进入了大模型时代,我们也不禁要问: 在大模型时代,爬虫能做什么,爬虫会被时代抛弃吗?本文就聊聊这个问题。先说结论,爬虫作为一种经典的互联网技术,在大模型时代仍是必不可少的技术,但存在很多挑战。
大模型给爬虫带来的机遇、任务
一、大模型的联网搜索离不开爬虫
大模型本质上是一种预训练模型,也就是先用大量语料训练过。然而由于信息更新迭代很快,大模型不可能及时跟上这种实时更新的信息。同时,在面对用户各种复杂问题时,基于语言模型的概率生成机制,大模型也很难准确地回答问题。在这两方面的驱动下,我们可以看到 大模型已经离不开联网搜索。
而这项功能的主要技术手段就是爬虫。大模型对用户的问题进行关键词提取,并到搜索引擎(如阿里夸克)检索,最后大模型对检索结果进行分析整合。当我们自己本地部署大模型应用时,就可以需要根据自己的需求编写实时性更高的爬虫系统,以满足大模型应用需求。
二、大模型智能体应用
智能体是指能够感知环境并自主采取行动以实现特定目标的实体,它并不是一个新概念,关于智能体的自主性、反应性、主动性、社会性和进化性这5个基本属性,也是很早就提出来的。但是直到大模型的出现,基于大模型的智能体才具备实现这5个属性的能力,因此许多大模型也都提供了搭建智能体的创建工具或平台。对于特定领域的智能体,通常需要提供知识库、语料给它,而这些 知识的收集处理通常离不开爬虫技术。
三、大模型的训练和微调
GPT-4训练数据量达13万亿Token,这么大的量离不开互联网大数据。大模型的大部分语料都是来自第三方爬虫CommonCrawl所抓取的语料,但是这个爬虫并非的是互联网全量抓取,也并非针对一些网站的持续采集,而是有一定随机性。CommonCrawl侧重于英文语料,中文占比很少。为了构建自己的大模型,也就需要采集相关的语料。
四、传统应用
虽然大模型能力很强,但是它并不能处理我们所有的事务。在大模型时代,我们仍需要进行舆情监测、仍需要进行社交网络分析等等各类传统任务。在这些应用中,即使通过大模型的联网搜索也是无法满足我们要求。因此,针对这些任务仍需要我们按照互联网大数据的处理逻辑进行。例如, 网络舆情分析、知识图谱构建、社交网络分析、金融舆情分析、商品评论分析等等,都遵循了爬虫采集、监测、Web内容处理、分析、挖掘等主要环节。
大模型给爬虫带来的挑战
1.数据污染
2.合规性更显重要
随着《网络安全法》、《数据安全法》等法律法规的实施,违规爬取可能面临法律诉讼。未经授权抓取某电商平台数据用于训练大模型,可能被认定为侵犯商业秘密、版权或隐私权。抓取用户生成内容(UGC)需遵守GDPR、CCPA等隐私法规,未经同意抓取社交媒体用户数据,则可能面临高额罚款。
3.LLM的高成本
,在考虑大模型时代的爬虫技术与应用方法之后,提出了爬虫的五个技术特性,并围绕普通爬虫、动态爬虫、主题爬虫、微博爬虫、DeepWeb爬虫以及相关数据处理进行了内容编写,并提供大量爬虫及互联网大数据分析的代码和案例,是当前爬虫及应用值得信赖的教材。