首页技术总结正文内容

爬虫系列(十二) selenium的基本使用

技术总结

更新时间：2024-12-22 21:51:36 3

admin 管理员组

文章数量: 887017

一、selenium 简介

随着网络技术的发展，目前大部分网站都采用动态加载技术，常见的有 JavaScript 动态渲染和 Ajax 动态加载

对于爬取这些网站，一般有两种思路：

分析 Ajax 请求，通过模拟请求得到真实的数据，这种方法在之前的文章中已经多次使用，这里就不再赘述了
使用 selenium 模拟浏览器进行动态渲染，从而获取网站返回的真实数据，以下我们将详细讲解这种方法

selenium 究竟是什么呢？简单来说，selenium 就是一个用于 Web 应用程序的测试工具

根据官方文档所说，selenium 最大的优点就是它可以直接运行在浏览器上，模拟用户的真实行为

但同时这也是它最大的缺点，由于需要模拟真实的渲染过程，所以导致它的运行速度变慢

其它详细的说明请参考官方文档

二、selenium 使用

0、准备工作

安装 selenium

pip install selenium

安装驱动

在使用 selenium 的时候，必须有对应的浏览器驱动器文件在 Python 的安装目录下，否则会出现异常

Chrome 驱动器下载官网如下：https://sites.google/a/chromium/chromedriver/home

由于上面的官网需要翻墙才能访问，所以博主也在这里简单的给大家讲讲安装驱动的方法，具体的步骤如下：

打开 Chrome 浏览器，在地址栏中输入地址 chrome://settings/help，查看 Chrome 浏览器的版本信息

例如 70.0.3538.67
将上面的信息去掉最后一部分后附加到 https://chromedriver.storage.googleapis/LATEST_RELEASE_

例如 https://chromedriver.storage.googleapis/LATEST_RELEASE_70.0.3538
访问上面的链接，得到对应的驱动器版本信息

例如 70.0.3538.97
将上面的信息附加到 https://chromedriver.storage.googleapis/index.html?path=，并在最后带上斜杠

例如 https://chromedriver.storage.googleapis/index.html?path=70.0.3538.97/
访问上面的链接，选择合适平台（linux、mac、win）压缩包进行下载
等待下载完成后解压，将解压后的文件放到 Python 安装目录下即可

1、导入模块

>>> from selenium import webdriver

webdriver 就是我们上面所说的浏览器驱动器，它支持多种浏览器，下面以 Chrome 浏览器为例说明

2、开启浏览器

>>> browser = webdriver.Chrome()
>>> type(browser)
# <class 'selenium.webdriver.chrome.webdriver.WebDriver'>

3、访问页面

使用 WebDriver 对象的 get(url) 方法可以访问对应 URL 的页面

>>> browser.get('https://www.baidu')
>>> print(browser.current_url) # current_url 属性可以得到当前网页的 URL
# https://www.baidu/
>>> print(browser.page_source) # page_source 属性可以得到当前网页的源代码

4、查找元素

方法一 ：

方法	描述
find_element_by_id(id)	通过 id 匹配
find_element_by_name(name)	通过 name 匹配
find_element_by_class_name(name)	通过 class_name 匹配
find_element_by_tag_name(name)	通过 tag_name 匹配
find_element_by_link_text(link_text)	通过 link_text 匹配
find_element_by_partical_link_text(link_text)	通过 partical_link_text 匹配
find_element_by_css_selector(css_selector)	通过 css_selector 匹配
find_element_by_xpath(xpath)	通过 xpath 匹配

以下尝试使用几种方法匹配输入框：

>>> search_bar = browser.find_element_by_id('kw')
>>> search_bar = browser.find_element_by_css_selector('#kw')
>>> search_bar = browser.find_element_by_xpath('//*[@id="kw"]')
>>> type(search_bar)
# <class 'selenium.webdriver.remote.webelement.WebElement'>

方法二：

>>> from selenium.webdrivermon.by import By
>>> element = browser.find_element(by,value)

参数 value 是与匹配方法对应的匹配表达式
参数 by 指定匹配方法，其可选值列举如下（和方法一类似）

值	描述
By.ID	通过 id 匹配
By.NAME	通过 name 匹配
By.CLASS_NAME	通过 class_name 匹配
By.TAG_NAME	通过 tag_name 匹配
By.LINK_TEXT	通过 link_text 匹配
By.PARTIAL_LINK_TEXT	通过 partical_link_text 匹配
By.CSS_SELECTOR	通过 css_selector 匹配
By.XPATH	通过 xpath 匹配

以下尝试使用几种方法匹配确认按钮：

>>> from selenium.webdrivermon.by import By
>>> button = browser.find_element(By.ID,'su')
>>> button = browser.find_element(By.CSS_SELECTOR,'#su')
>>> button = browser.find_element(By.XPATH,'//*[@id="su"]')
>>> type(button)
# <class 'selenium.webdriver.remote.webelement.WebElement'>

注意：

对于两种方法来说，若成功找到则返回 WebElement 对象，若没有找到则抛出 NoSuchElementException 异常

当需要查找多个元素时，只需要把方法中的 element 改成 elements 即可，此时返回的是匹配列表

5、元素交互操作

常见的元素交互操作列举如下：

获取文本节点（可以使用 text 属性获取文本节点）
获取元素属性值

>>> button.get_attribute('type')
# 'submit'

写入输入框

>>> search_bar.send_keys('Selenium') # 向输入框输入内容
>>> search_bar.clear() # 清空输入框
>>> search_bar.send_keys('Selenium')
>>> from selenium.webdrivermon.keys import Keys
>>> search_bar.send_keys(Keys.ENTER) # 向输入框输入ENTER键

点击提交按钮

>>> button.click() # 点击提交按钮，等价于上面的 search_bar.send_keys(Keys.ENTER)

6、执行交互动作

将动作附加在动作链中串行执行，常用的方法列举如下：

方法	描述
click(on_element=None)	鼠标左键点击元素
double_click(on_element=None)	鼠标左键双击元素
context_click(on_element=None)	鼠标右键点击元素
click_and_hold(on_element=None)	按下鼠标
release(on_element=None)	松开鼠标
move_to_element(to_element)	移动鼠标到指定元素中央
drag_and_drop(source, target)	拖拽元素
key_down(value, element=None)	按下键盘，一般只用在 Ctrl、Alt 和 Shift
key_up(value, element=None)	松开键盘
send_keys(keys_to_send)	发送键盘输入到当前聚焦元素
send_keys_to_element(element, keys_to_send)	发送键盘输入到指定元素
pause(seconds)	在指定的时间内暂停所有的输入
perform()	执行动作链的所有动作

以下示例为滚动到下一页按钮所在位置并点击下一页按钮翻页

>>> from selenium.webdrivermon.action_chains import ActionChains
>>> target = browser.find_element_by_class_name('n')
>>> ActionChains(browser).move_to_element(target).click(target).perform()

7、执行 JavaScript

JavaScript 能完成绝大部分的网页操作，由于内容庞杂，这里就不展开细说了

以下通过一个简单的例子来说明 JavaScript 的作用，其功能为拖动网页至底部：

>>> js = "window.scrollTo(0,document.body.scrollHeight)"
>>> browser.execute_script(js)

8、等待

规定等待的最长时间，若超过时间还未找到指定元素时，则抛出异常，先上代码感受一下：

>>> from selenium.webdriver.support.wait import WebDriverWait
>>> from selenium.webdriver.support import expected_conditions as EC
>>> wait = WebDriverWait(browser,10)
>>> try:
    element = wait.until(EC.presence_of_element_located((By.CLASS_NAME,'n')))
except:
    browser.quit()

其它的 expected_conditions 方法列举如下：

属性	描述
title_is(title)	验证 title 是否等于 browser.title
title_contains(title)	验证 title 是否包含于 browser.title
presence_of_element_located(locator)	验证 locator 元素是否加载在 DOM 中
presence_of_all_elements_located(locator)	验证 locator 元素是否全部加载在 DOM 中
visibility_of_element_located(locator)	验证 locator 元素是否可见
invisibility_of_element_located(locator)	验证 locator 元素是否隐藏
text_to_be_present_in_element(locator,text)	验证 text 是否包含于 locator 元素的 text 中
text_to_be_present_in_element_value(locator,text)	验证 text 是否包含于 locator 元素的 value 中
frame_to_be_available_and_switch_to_it(locator)	验证 locator(frame) 元素是否可切入
element_to_be_clickable(locator)	验证 locator 元素是否可点击
element_located_to_be_selected(locator)	验证 locator 元素是否被选中

9、关闭浏览器

方法	描述
close()	关闭当前窗口
quit()	关闭所有关联窗口

一个简单的示例如下：

>>> browser.quit()

【参考资料】

https://selenium-python.readthedocs.io

【爬虫系列相关文章】

爬虫系列(一) 网络爬虫简介
爬虫系列(二) Chrome抓包分析
爬虫系列(三) urllib的基本使用
爬虫系列(四) 用urllib实现英语翻译
爬虫系列(五) re的基本使用
爬虫系列(六) 用urllib和re爬取百度贴吧
爬虫系列(七) requests的基本使用
爬虫系列(八) 用requests实现天气查询
爬虫系列(九) xpath的基本使用
爬虫系列(十) 用requests和xpath爬取豆瓣电影
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
爬虫系列(十二) selenium的基本使用
爬虫系列(十三) 用selenium爬取京东商品

转载于:https://wwwblogs/wsmrzx/p/9531063.html

本文标签：爬虫系列 selenium 十二

版权声明：本文标题：爬虫系列(十二) selenium的基本使用内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726435175h960075.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

爬虫系列(十二) selenium的基本使用

一、selenium 简介

二、selenium 使用

0、准备工作

1、导入模块

2、开启浏览器

3、访问页面

4、查找元素

5、元素交互操作

6、执行交互动作

7、执行 JavaScript

8、等待

9、关闭浏览器

更多相关文章

【愚公系列】2021年12月 网络工程-windows系统基本命令

微星系列原厂预装正版系统恢复镜像自带原机所有驱动

python selenium不启动浏览器 爬取数据的方法

python模拟打开Google浏览器并打开网页（selenium+chrome）

selenium操作浏览器

【Selenium配置】WebDriver安装浏览器驱动（Chrome&amp;Edge）

【愚公系列】《AIGC辅助软件开发》011-AI辅助编写技术文档：技术文档

WINDOWS 7驱动开发系列（六）-认识内核的对象

记录在编写ChatGPT爬虫网页时的问题

微软原版 windows server 2003 sp2 R2 系列下载分享

博通Broadcom系列网卡连接受限问题

伴你装系统系列（中篇）：Windows+Linux双系统

Selenium电脑上怎么下载-Selenium下载和安装图文教程[超详细]

java使用selenium实现模拟浏览器操作API大全 模拟登录

小白测试系列:badboy默认浏览器修改

将现有windows封装iso_【原创】最新WIN10系统封装教程2019系列(一)——定制母盘

五、Python复习教程（重点）-爬虫框架实战

【Scrapy爬虫框架】：快速掌握 scrapy 爬虫框架以及了解原理

重装系统遇到的一系列问题

Vmware系列&amp;虚拟机系列【仅供参考】：vCenter8.0以上无DNS环境部署

发表评论

推荐文章

联想电脑如何激活windows系统

不在一个局域网下，如何设置可以被远程登录的服务器[ubuntu]？【ssh登录】【不使用软件】

【关于Windows激活无法连接到你的组织的激活服务器的问题】

Android-System fastboot 介绍和使用

win10系统下的DCOM配置

热门文章

零刻EQ12&amp;EQ12Pro原厂系统安装教程：轻松上手，稳定体验

windows7中把整个用户目录移动到其它分区中的方法

Windows下清理redis缓存

估算总体标准差的极差均值估计法sigma = Rd2

[Unity3D]Unity3D游戏开发之《愤慨的小鸟》弹弓实现

谁会将Android从Google身边偷走？

人是自私的动物

安全面试库（二）

博文视点大讲堂20期：Windows 7来了——知道你所不知道的Windows 7

windows远程桌面无法连接，出现“这可能是由于CredSSP加密数据库修正问题”解决方案

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

零基础使用UltraISO制作并安装纯净Win10系统指南

苹果电脑windows系统换苹果系统

Win11系统崩溃错误修复指南：三种实用方法详解

如何封装一个自己的win7系统并安装到电脑做成双系统

如何在Excel 2019中开启数据分析工具？

【愚公系列】2021年12月网络工程-windows系统基本命令

python selenium不启动浏览器爬取数据的方法

【Selenium配置】WebDriver安装浏览器驱动（Chrome&Edge）

java使用selenium实现模拟浏览器操作API大全模拟登录

Vmware系列&虚拟机系列【仅供参考】：vCenter8.0以上无DNS环境部署

零刻EQ12&EQ12Pro原厂系统安装教程：轻松上手，稳定体验