Python爬虫工作基本流程以及常用的urllib模块

2024/2/2 3:47:19发布20次查看

根据使用场景，网络爬虫可分为通用爬虫(传统爬虫)和聚焦爬虫两种
通用网络爬虫捜索引擎抓取系统(baidu、google、yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。但是大多数情况下，网页里面90%的内容对用户来说是无用的。
聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的url队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页url，并重复上述过程，直到达到系统的某一条件时停止。
而我们现在要学的就是聚焦爬虫。
,wb)
f.write(reponse)
f.close()

该用户其它信息

Python爬虫工作基本流程以及常用的urllib模块

VIP推荐