首页技术总结正文内容

python爬虫 - 翻页url不变网页的爬虫探究！

技术总结

更新时间：2024-12-23 02:55:39 5

admin 管理员组

文章数量: 887021

python爬虫-翻页url不变网页的爬虫探究

url随着翻页改变的爬虫已经有非常多教程啦，这里主要记录一下我对翻页url不变网页的探究过程。学术菜鸡第一次写CSDN，请大家多多包容～如果对你有一点点帮助，请帮我点个赞吧！

翻页url不变与翻页url改变有什么区别？

url其实就是链接，翻页url改变的链接就是翻页请求在url中体现的链接，比方说很多爬虫初学者的第一个爬虫实例：爬取豆瓣电影top250的信息。

注意看这个网站的链接！！

这里可以看到控制页数的参数start直接在url中体现了，改变start=之后的数值就能够实现翻页。start=25对应的页面就是从26开始的电影，start=0对应的页面就是从1开始的电影。那么只需要控制start之后的数字以25为步长递增就可以通过for函数实现翻页。

但是有时候会遇到明明你点击了翻页，但url却不改变的情况，比如这个：

这种情况没有办法在python中直接通过改变url实现翻页。

找到翻页命令

事实上，控制网页翻页总得有一个参数，只是在翻页url改变的情况中，这个翻页参数体现在了url中，这使得我们可以通过直接改变url的方式实现翻页。对于翻页url不变的情况，我们其实只需要找到翻页命令所在的位置，然后控制这条命令即可。

下面介绍我找到翻页命令的一种方式：

打开开发者模式
在打开开发者模式的情况下点击翻页
找到翻页后返回的内容表单 （一般是XHR格式）
查看其headers （注意pages，start，p等字眼）
提取相应的部分，在python中编写语句实现控制就可以控制翻页了

爬取去哪儿酒店信息实例

打开开发者模式，并点击翻页
找到返回的第二页内容的表单可以点击list-preview打开表单预览，确认这个list确实是服务器返回的第二页酒店内容这里可以看到list里面的内容确实就是第二页的酒店内容，那么我们就要寻找这个list是怎么返回的，即它是通过向服务器发送什么命令返回的！！
查看list的headers

可以发现在Request Headers之下多了一个新的模块，叫做Request Payload（我之前在CSDN上看到很多帖子，都是讲From Data或者Query String Parameters，但是我却一直没找到这两个模块，只有Request Payload，后来经过高人指点才知道，其实在Request Payload内也有可能隐藏着翻页的信息，所以我在想不一定要局限在具体的模块名字，关键是找到翻页之后服务器返回的信息表单，找它的headers有什么与第一页headers不同的地方）

将Request Payload的内容打开观察

观察Request Payload里的内容，发现这条指令其实是向服务器发送了一些要求，比如说要求了需要查找的酒店所在城市是西安，还指定了查询的日期。可以看到这里有一条start：20的命令，经过对比第一页list的同一位置（start：0）发现start：i就是控制返回不同页面的命令。

至此我们已经发掘到了翻页url不变网站的翻页命令，下面只需要在爬虫构造headers的时候，加上Request Payload里要求的内容，其中start控制内容由函数参数控制。这样就实现了控制爬取页数的操作。除此之外，不难发现我们甚至还可以控制通过控制Request Payload中的city方便地实现对不同城市酒店的爬取。

代码

下面附上完整代码，由于去哪儿网页时常加载失败，所以如果前两次出现“No targets found”很有可能是由于链接网页失败，多试几次就好了。

通过修改main()里的city，可以爬取不同城市的酒店信息。
通过修改getlist()里z的范围，可以改变爬取页数。
我没有对正则提取的内容做任何模糊处理，理论上复制这个代码就可以运行。
大多数城市直接输入城市拼音就可以爬到（链接失败就多试几次），但是北京得用beijing_city。如果有的城市试了很多次都链接失败，可以上去哪儿网手动搜索看看url里的city是怎样的，手动添加一下就可以了。

#-*- codeing = utf-8 -*-
#@Time : 2020/8/4 9:25 上午
#@Author : Tango
#@File : hotel_general.py
#@Software : PyCharm

import time
import re
import requests
from bs4 import BeautifulSoup
import xlwt
import json

findname = repile(r'<a class="hotel-name".*>(.*?)</a>')
findgrade = repile(r'<span class="num">(3|4|("4))\.(.*?)</span><span class="desc">')
findtotal = repile(r'<span class="total">共(.*)条评论</span>')
findprice = repile(r'<span class="y rmb">¥</span>(.*)<span class="qi">起</span>')
finddetail = repile(r'<a class="btn hotel-card-detail-btn" (.*?)" rel="noopener noreferrer" target="_blank" title=.*>查看详情</a>')

def askurl(city, i, url):  #获取网页内容（post）
    request_payload = {
        "b": "{bizVersion: \"17\", cityUrl:" + city + ", cityName: \"\", fromDate: \"2020-08-04\", toDate: \"2020-08-05\", q: \"\",…}",
        "bizVersion": "17",
        "channelId": 1,
        "cityName": "",
        "cityType": 1,
        "cityUrl": city,
        "comprehensiveFilter": [],
        "fromAction": "",
        "fromDate": "2020-08-04",
        "fromForLog": 1,
        "hourlyRoom": "false",
        "level": "",
        "locationAreaFilter": [],
        "maxPrice": -1,
        "minPrice": 0,
        "num": 20,
        "q": "",
        "qFrom": 3,
        "searchType": 0,
        "sort": 0,
        "start": int(i*20),
        "toDate": "2020-08-05",
        "userId": "",
        "userName": "",
        "uuid": "",
        "qrt": "h_hlist",
        "source": "website"
    }
    head = {
        "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"
    }
    response = requests.post(url, headers=head, data=json.dumps(request_payload))
    #headers里表示这里的数据获取是post方法，所以使用requests.post函数
    return response.text


def getlist(city, url):
    hotellist = []

    for z in range(0, 3):  # 爬取页数设置
        page = askurl(city, z, url) #爬取第z页
        soup = BeautifulSoup(page, 'html.parser')  #是一个树形结构了
        lsts = soup.find_all('div', class_="inner clearfix" )

        ##表空判断
        if not lsts:
            print("No targets found")
            print("连接到网页失败")
            exit(0)

        print("链接网页成功，开始爬取数据")
        number = 1
        #非空情况下读取
        for item in lsts:
            hotel = []             #每个hotel存放一个酒店的信息（列表形式）
            item = str(item)

            # 酒店名称
            hotel_name = re.findall(findname, item)[0]
            hotel.append(hotel_name)

            # 酒店评分
            hotel_grade = re.findall(findgrade, item)
            temp = list(hotel_grade)
            if temp:
                hotel.append(temp[0][0])
                hotel.append(temp[0][2])
            else:
                hotel.append(0)
                hotel.append(0)

            # 酒店总评分数
            hotel_total = re.findall(findtotal, item)[0]
            hotel.append(hotel_total)

            # 酒店起步价
            hotel_price = re.findall(findprice, item)
            if len(hotel_price):
                hotel_price = hotel_price[0]
            else:
                hotel_price = 0
            hotel.append(hotel_price)

            # 详情链接
            hotel_info = re.findall(finddetail, item)[0]
            hotel.append(hotel_info)

            # 写入hotellist
            hotellist.append(hotel)

            print("-----正在爬取第%d条酒店信息-----"%number)
            number += 1
            time.sleep(1.5)
        time.sleep(7.5)
        print("第%d页爬取完成"%(z+1))
    return hotellist

def listToExcel(city, list):
    col = ['酒店名称', '酒店评分整数', '酒店评分小数', '酒店评价总数', '起步价', '详情网址']
    hotelbook = xlwt.Workbook(encoding = "utf-8", style_compression = 0)
    hotelsheet = hotelbook.add_sheet("sheet1", cell_overwrite_ok = True)
    for i in range(len(col)):
        hotelsheet.write(0, i, col[i])

    for i in range(0,len(list)):
        print("-----正在写入第%d条酒店信息-----"%(i+1))
        item = list[i]
        for j in range(len(col)):
            hotelsheet.write(i+1, j, item[j])

    hotelbook.save(city + "hotel.xls")

def main():
    city = "beijing_city"
    #基本上写入城市拼音即可，但是北京要写成beijing_city
    baseurl = "https://hotel.qunar/city/" + city + "/#fromDate=2020-01-01&cityurl=xiamen&toDate=2020-01-02&from=qunarHotel"
    hotellist = getlist(city, baseurl)
    listToExcel(city, hotellist)
    #askurl(baseurl)

if __name__ == '__main__':
    main()

学会了么学会了就私信小编 01 领取惊喜哦

本文标签：爬虫翻页网页 python URL

版权声明：本文标题：python爬虫 - 翻页url不变网页的爬虫探究！内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726435189h960076.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

python爬虫 - 翻页url不变网页的爬虫探究！

python爬虫-翻页url不变网页的爬虫探究

翻页url不变 与 翻页url改变 有什么区别？

找到翻页命令

爬取去哪儿酒店信息实例

代码

更多相关文章

【爬虫基础】第3讲 常见浏览器User-Agent大全

【前端】主流浏览器，URL，URI

易语言网页填表取不到cookie_易语言置外部浏览器Cookie例子（支持所有浏览器）...

为什么我电脑的所有浏览器都开不了网页

【Python之Selenium】Chrome浏览器启动参数配置

html本地修改浏览器自动更新,更改html代码后网页不更新

前端那些事--url输入到浏览器到页面的呈现的过程（全网最详细）

Windows10下安装Python+OpenCV

windows系统 python安装uwsgi教程

大模型：Python调用chatgpt的三种方法

java使用webMagic爬虫

win10上使用pyinstaller工具打包python后在win7无法运行（运行报错）

qt界面和python怎么交互_Python GUI界面编程-初识

局部页面切换url为什么不变_python爬虫 - 翻页url不变网页的爬虫探究！

局部页面切换url为什么不变_python爬虫 - 翻页url不变网页的爬虫探究

OpenAI 推出新网络爬虫GPTBot，为GPT-5做准备

Windows开机自动运行Chrome并全屏和打开指定网页和网站

【Python】Windows：Python 3.9.2 下载和安装

【Ubuntu 22.04】VMware 17 安装Ubuntu 22.04+配置VSCode+Python开发环境

Python 自动配置 pip 支持库（通过 Windows Bat 脚本）

发表评论

推荐文章

android ppi 对应资源,Android界面设计专业术语：xxxhdpi和4K分辨率

低烟无卤阻燃电缆为何如此受市场喜爱

使用@Value注解获取配置信息时提示 Could not resolve placeholder ‘xxx‘ in value “${xxx}“

Win7系统哪个版本最好用？推荐三款高效稳定版

windows常见的命令操作大全

热门文章

Win10禁用管理员帐户后无法进入的两种解决方法

分享从大厂辞职创业后的日常

前端入门01

html页面标签meta，配置http

Windows10企业版下载指南及推荐版本详解

SCP命令详解(Linux和windows之间传送文件)

64位windows7 关机时Wdf01000.sys蓝屏

苹果手机ios系统下载了.apk文件程序怎么安装？

完全卸载VS2015_enterprise

【完美解决win1110重新设置pin码卡死点不动|无法登录进系统问题】

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统 含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

翻页url不变与翻页url改变有什么区别？

【爬虫基础】第3讲常见浏览器User-Agent大全

（Windows系统）详细介绍Windows系统含有英文版