您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

讲解编写Python爬虫抓取暴走漫画上gif图片的实例代码

2026/1/28 0:57:32发布15次查看
这篇文章讲解编写python爬虫抓取暴走漫画上gif图片的实例代码,示例代码为python3,利用到了urllib模块、request模块和beautifulsoup模块,需要的朋友可以参考下
本文要介绍的爬虫是抓取暴走漫画上的gif趣图,方便离线观看。爬虫用的是python3.3开发的,主要用到了urllib、request和beautifulsoup模块。
urllib模块提供了从万维网中获取数据的高层接口,当我们用urlopen()打开一个url时,就相当于我们用python内建的open()打开一个文件。但不同的是,前者接收一个url作为参数,并且没有办法对打开的文件流进行seek操作(从底层的角度看,因为实际上操作的是socket,所以理所当然地没办法进行seek操作),而后者接收的是一个本地文件名。
python的beautifulsoup模块,可以帮助你实现html和xml的解析
先说一下,一般写网页爬虫,即抓取网页的html源码等内容,然后分析,提取相应的内容。
这种分析html内容的工作,如果只是用普通的正则表达式re模块去一点点匹配的话,对于内容简单点的网页分析,还是基本够用。
但是对于工作量很大,要解析内容很繁杂的html,那么用re模块,就会发现无法实现,或很难实现。
而使用beautifulsoup模块去帮你实现分析html源码的工作的话,你就会发现,事情变得如此简单,极大地提高了分析html源码的效率。
注:beautifulsoup是第三方库,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文档中的原文如下。
note:the urllib2 module has been split across several modules in python 3 named urllib.requestand urllib.error.
爬虫源代码如下
# -*- coding: utf-8 -*- import urllib.request import bs4,os page_sum = 1 #设置下载页数 path = os.getcwd() path = os.path.join(path,'暴走gif') if not os.path.exists(path): os.mkdir(path) #创建文件夹 url = "http://baozoumanhua.com/gif/year" #url地址 headers = { #伪装浏览器 'user-agent':'mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko)' ' chrome/32.0.1700.76 safari/537.36' } for count in range(page_sum): req = urllib.request.request( url = url+str(count+1), headers = headers ) print(req.full_url) content = urllib.request.urlopen(req).read() soup = bs4.beautifulsoup(content) # beautifulsoup img_content = soup.findall('img',attrs={'style':'width:460px'}) url_list = [img['src'] for img in img_content] #列表推导 url title_list = [img['alt'] for img in img_content] #图片名称 for i in range(url_list.__len__()) : imgurl = url_list[i] filename = path + os.sep +title_list[i] + ".gif" print(filename+":"+imgurl) #打印下载信息 urllib.request.urlretrieve(imgurl,filename) #下载图片
在第15行可以修改下载页数,将此文件保存为baozougif.py,使用命令python baozougif.py运行后在同目录下会生成「暴走gif」的文件夹,所有的图片会自动下载到该目录中。
以上就是讲解编写python爬虫抓取暴走漫画上gif图片的实例代码的详细内容。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product