admin 管理员组

文章数量: 887007

python爬虫-翻页url不变网页的爬虫探究

url随着翻页改变的爬虫已经有非常多教程啦,这里主要记录一下我对翻页url不变网页的探究过程。学术菜鸡第一次写CSDN,请大家多多包容~ 如果对你有一点点帮助,请帮我点个赞吧!

翻页url不变 与 翻页url改变 有什么区别?

url其实就是链接,翻页url改变的链接就是翻页请求在url中体现的链接,比方说很多爬虫初学者的第一个爬虫实例:爬取豆瓣电影top250的信息。

注意看这个网站的链接!!

这里可以看到控制页数的参数start直接在url中体现了,改变start=之后的数值就能够实现翻页。start=25对应的页面就是从26开始的电影,start=0对应的页面就是从1开始的电影。那么只需要控制start之后的数字以25为步长递增就可以通过for函数实现翻页。

但是有时候会遇到明明你点击了翻页,但url却不改变的情况,比如这个:

这种情况没有办法在python中直接通过改变url实现翻页。

找到翻页命令

事实上,控制网页翻页总得有一个参数,只是在翻页url改变的情况中,这个翻页参数体现在了url中,这使得我们可以通过直接改变url的方式实现翻页。对于翻页url不变的情况,我们其实只需要找到翻页命令所在的位置,然后控制这条命令即可。

下面介绍我找到翻页命令的一种方式:

  1. 打开开发者模式
  2. 在打开开发者模式的情况下点击翻页
  3. 找到翻页后返回的内容表单 (一般是XHR格式)
  4. 查看其headers (注意pages,start,p等字眼)
  5. 提取相应的部分,在python中编写语句实现控制就可以控制翻页了

爬取去哪儿酒店信息实例

  • 打开开发者模式,并点击翻页
  • 找到返回的第二页内容的表单可

本文标签: 爬虫 翻页 局部 页面 网页