您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

python3网络爬虫 (6)-分析知乎问题页面数据

2023/5/27 20:52:33发布55次查看
注:本文只做数据来源分析,暂未抓取数据
1. 打开知乎页面(地址来自上次爬虫爬取的数据)
示例: https://zhihu/question/41508191
2. 打开可以看到需要抓取的数据有(标签、标题、描述、答案)
页面
3. 查看网页请求状况(由于该问题答案较少,暂时用 https://zhihu/question/65381487 查看接口数据)
可以发现答案的接口。(还有相似问题和相关live,暂时没有用到)
查看接口
4. 由于我们请求到的网页中的js是不会执行的,所以我们先禁用浏览器js(js禁用方法,请自行百度)
禁用js后的页面
5. 接口只能看到答案,所以我们还需要在页面上找到其他数据
经过对比发现,js执行过的描述是有图片的,但是js未执行的没有图片,描述不够完整。
但是没有描述的请求,所以,猜测描述被隐藏在了页面的其他地方
搜索中的描述部分内容,可以发现确实被隐藏在了标签中
6. 将描述内容格式化
格式化后发现,需要获取的标签、标题、描述等信息均在里面,不用再去网站上查找其他接口
格式化数据
喜欢就点个赞吧!
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product