技术交流 – FreeNAS中文网

FreeNAS中文网是一个编程技术交流的平台，欢迎技术员程序猿前来投稿！

扫一扫

扫一扫

首页技术总结正文内容

scrapy结合selenium进行动态加载页面内容爬取

技术总结

更新时间：2024-12-23 02:51:10 5

admin 管理员组

文章数量: 887021

动态页面与静态页面

比较常见的页面形式可以分为两种：

静态页面
动态页面

静态页面和动态页面的区别

使用requests进行数据获取的时候一般使用的是respond.text来获取网页源码，然后通过正则表达式提取出需要的内容。

例如：

import requests
response = requests.get('https://www.baidu')
print(response.text.encode('raw_unicode_escape').decode())

百度源代码.png

但是动态页面使用上述操作后发现，获取到的内容与实际相差很大。

例如我们打开如下页面：

https://www.aqistudy/historydata/monthdata.php?city=北京

右键选择查看网页源代码

查看网页源代码.png

在网页源代码中查找页面中存在的一个数据：2014-02的PM10为155。

北京空气质量指数.png

这时打开F12查看Elements 可以看到155在元素中有显示

检查.png

综上基本可以明白静态页面和动态页面的区别了。

有两种方式可以获取动态页面的内容：

破解JS，实现动态渲染
使用浏览器模拟操作，等待模拟浏览器完成页面渲染

由于第一个比较困难所以选择方法二

需求分析

获取各个城市近年来每天的空气质量

日期
城市
空气质量指数
空气质量等级
pm2.5
pm10
so2
co
no2
o3

使用scrapy

scrapy操作的基本流程如下：

1.创建项目：scrapy startproject 项目名称
2.新建爬虫：scrapy genspider 爬虫文件名 爬虫基础域名
3.编写item
4.spider最后return item
5.在setting中修改pipeline配置
6.在对应pipeline中进行数据持久化操作

创建

打开命令行，输入scrapy startproject air_history ,创建一个名为air_history的scrapy项目

进入该文件夹，输入scrapy genspider area_spider "aqistudy",可以发现在spiders文件夹下多了一个名为area_spider的py文件

文件目录结构大概如下：

.
├── air_history
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── __pycache__
│   │   ├── __init__.cpython-36.pyc
│   │   └

本文标签：加载页面动态内容 scrapy

版权声明：本文标题：scrapy结合selenium进行动态加载页面内容爬取内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726436248h960278.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

计算机二级报名付款页面弹不出来怎么办,12123支付页面弹不出来怎么办

技术总结

2月前

交管12123app2.1.6 官方安卓版类型：生活服务大小：29.6M语言：中文评分：9.8 标签： 立即下载 12123交

Win11无法使用动态壁纸怎么办？Win11用不了动态壁纸的解决方法

技术总结

2月前

Win11无法使用动态壁纸怎么办？出现这样的情况有可能是软件或系统版本落后，又或者是刚更新，被系统壁纸覆盖了。那么有没有什么方法可以解决呢？ 还有更

Tplink路由器配置页面IP地址_tplogin.cn页面IP地址_TpLink易展版LAN口地址获取_如何获得tplogin.cn的IP地址_获取易展版TPLinkWIFI6路由器的配置地址方法

技术总结

2月前

如何获得tplogin的IP地址，此话一出，很多读者朋友就会说了：哎，你搁着搁着呢，我想配置新款TPLINK路由器就直接输入tpl

tp交换机管理页面_tplink交换机设置步骤使用方法

技术总结

2月前

原标题："tplink交换机使用方法步骤详解"的相关路由器设置教程资料分享。- 来源：191路由网。有网友问小编tplink 交换机怎么设置，191路由

怎样用chatgpt快速写一个具有动效的页面

技术总结

2月前

下图是想做的页面效果，根据请求url的不同，图标以及下面的提示语不同，点击“示例一”，“示例二”，“示例三”后被点击的框颜色改变&

浏览器使用chat-GPT卡顿或者CPU占用率非常高或者页面崩溃

技术总结

2月前

最近使用GPT一直出现卡顿，换了浏览器也是这样的问题，以为GPT崩了，于是看其他人的GPT特别流畅，输入问题后回车立马就开始回答。而我的GPT输入问题后

安装ubuntu 18.04 u盘启动卡加载界面解决方案

技术总结

2月前

这个问题在安装ubuntu 16.04时就困扰过我很久，当时病急乱投医，搜了一堆操作，也不知道有没有用的就都去试了试。最后倒是安装上了，自己也不知道是怎

招商银行行长北大演讲内容

技术总结

2月前

主持人： 对于全世界来说，2008年都是非同寻常的一年，在这一年当中，每当人们谈论起海啸、风暴和冬天这个话题的时候，首先想到的并不

w7计算机打开后页面不对,win7系统打开word文档发现页码错乱的解决步骤

技术总结

2月前

win7系统使用久了，好多网友反馈说win7系统打开word文档发现页码错乱的问题，非常不方便。有什么办法可以永久解决win7系统打开word文档发现页码错乱的问题，面对wi

win11网络正常但是经常加载不出来网页的解决办法

技术总结

2月前

试了网上说的什么重置网络和Internet，取消代理啥的都不行，最后找了是路由器的问题，登录自己的路由器设置网页，以小米路由器为例地址为192.168.

基于STM32的动态天气时钟毕业设计

技术总结

2月前

目录概述一、设计背景及设计内容 1.1背景 1.2设计内容二、软件开发工具 2.1.串口调试助手 2.2 取模软件 2.3 Keil uVision5 MDK（ARM）软件

u盘内容无故消失了是什么原因？u盘部分内容无故消失了怎么恢复

技术总结

2月前

在数字化时代，U盘作为便携存储设备，承载着许多重要的数据。然而，有时我们可能会遭遇U盘部分内容无故消失的情况，这无疑给我们的工作和生活带来了不小的困扰。

win7总是显示加载计算机,win7电脑开机一直卡正在加载个人设置怎么办

技术总结

2月前

很多笔记本win7旗舰版用户反馈电脑开机非常慢，总是会卡在正在加载个人设置界面，很长时间才能进入系统，遇到这种情况该怎么办呢？开机一直卡正在加载个人设置

2345浏览器如何显示浏览器推送内容

技术总结

2月前

2345浏览器是一款非常便捷好用的浏览服务软件，用户可以在这里获取最便捷的浏览方式，超多的内容都可以一键掌握，浏览器在使用的时候会显示推送内容，用户可以

前端那些事--url输入到浏览器到页面的呈现的过程（全网最详细）

技术总结

2月前

面试官：url输入到浏览器到页面的呈现经历了什么？ 萌新：浏览器发送请求，服务器收到数据返回，浏览器拿到数据渲染页面面试官&am

hbase管理页面打不开_wifi.cmcc访问路由器管理页面打不开怎么解决

技术总结

1月前

在实际使用中国移动定制版路由器的时候经常遇到wifi.cmcc访问路由器管理页面打不开的情况。对于wifi.cmcc这个域名具有一定的特殊性，因为它不是一个严格意义上的网址，这也就造成了一定的识别问题。在本文家用路由器网来分析有关输入wi

计算机无法加载操作系统,由于关键系统驱动程序丢失或包含错误，因此无法加载操作系统。解决方案...

技术总结

1月前

今天，一个网民不知道他是怎么做到的，并在计算机上显示了蓝屏。似乎他说他已更新驱动程序。我不太清楚细节。然后，他启动了计算机并报告了以下提示： 您的计算机

局部页面切换url为什么不变_python爬虫 - 翻页url不变网页的爬虫探究！

技术总结

29天前

python爬虫-翻页url不变网页的爬虫探究 url随着翻页改变的爬虫已经有非常多教程啦，这里主要记录一下我对翻页url不变网页的探究过程。学术菜鸡第一次写CSDN，请大家多多包容～如果对你有一点点帮助，请帮我点个赞吧！翻页url不变

局部页面切换url为什么不变_python爬虫 - 翻页url不变网页的爬虫探究

技术总结

29天前

python爬虫-翻页url不变网页的爬虫探究 url随着翻页改变的爬虫已经有非常多教程啦，这里主要记录一下我对翻页url不变网页的探究过程。学术菜鸡第一次写CSDN，请大家多多包容～如果对你有一点点帮助，请帮我点个赞吧！翻页url不变

ChatGPT基础内容及使用

技术总结

25天前

ChatGPT基础内容及使用 ChatGPT是由OpenAI开发的一个人工智能聊天机器人程序，于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。 ChatGPT目前仍以文字方

发表评论

全部评论 0

暂无评论

推荐文章

老毛桃系统（计算机装机）

基于SpringBoot的电影购票系统

win10系统java是什么版本号_win10安装什么版本 windows10安装java需要什么版本

win7彻底关闭windows更新

四个硬盘安装Windows7的方法

热门文章

Packet Tracer - 将路由器连接到 LAN
1月前
最新配置电脑安装Win7、win server 2008R2等老系统的方法
1月前
uniapp中的生命周期
29天前
扬城不少实体店开“微信商城”
29天前
纯真的Java
29天前
阿里聚安全
29天前
使用 ESP32 的 ESP32 水位和水量监测系统
28天前
win7电脑一开机就弹出“便筏已损坏”的解决办法
13天前
【虚拟机】Windows（x86）上部署ARM虚拟机（Ubuntu）
11天前
Windows Mobile 6 模拟器绿色中文版 - 在PC上模拟并运行智能手机的软件游戏
1天前

最新文章