1. 打开知乎页面(地址来自上次爬虫爬取的数据)
示例: https://zhihu/question/41508191
2. 打开可以看到需要抓取的数据有(标签、标题、描述、答案)
页面
3. 查看网页请求状况(由于该问题答案较少,暂时用 https://zhihu/question/65381487 查看接口数据)
可以发现答案的接口。(还有相似问题和相关live,暂时没有用到)
查看接口
4. 由于我们请求到的网页中的js是不会执行的,所以我们先禁用浏览器js(js禁用方法,请自行百度)
禁用js后的页面
5. 接口只能看到答案,所以我们还需要在页面上找到其他数据
经过对比发现,js执行过的描述是有图片的,但是js未执行的没有图片,描述不够完整。
但是没有描述的请求,所以,猜测描述被隐藏在了页面的其他地方
搜索中的描述部分内容,可以发现确实被隐藏在了标签中
6. 将描述内容格式化
格式化后发现,需要获取的标签、标题、描述等信息均在里面,不用再去网站上查找其他接口
格式化数据
喜欢就点个赞吧!