技术交流 – FreeNAS中文网

FreeNAS中文网是一个编程技术交流的平台，欢迎技术员程序猿前来投稿！

扫一扫

扫一扫

首页技术总结正文内容

Python爬虫：XPath语法

技术总结

更新时间：2024-12-23 02:36:46 2

admin 管理员组

文章数量: 887021

Python爬虫：XPath语法

XPath
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历，我们用来提取格式为HTML的网页源码效率也相当高，可以遍历html的各个标签和属性，来定位到我们需要的信息的位置，并提取。
1，安装
需要安装lxml库

pip install lxml

2，语法
举例子之前来个常规语法介绍。

3，案列说明
直接来个案例吧。
这里用谷歌浏览器打开开发者工具查看网页源代码（windows在谷歌浏览器界面按F12或者‘设置 -> 开发者工具’。Mac用户两个手指轻点页面-> “检查”）

鼠标移动到“豆瓣电影排行榜”，对应右边的开发者工具就会选中相应的标签，即图中的：

<h1>豆瓣电影排行榜</h1>

那我们试着用xpath来获取这个这个h1标签：

# coding:utf-8 
import requests 

# 上节的requests请求网页，得到网页源代码 
url = 'https://movie.douban/chart' 
r = requests.get(url).content 

# 导入lxml库和html.fromStringh函数来解析html 
from lxml import html 

# 调用html.fromString函数解析html源代码 
sel = html.fromstring(r) 

# 提取h1标签，text()获取该标签下的文本 
title = sel.xpath("//h1/text()") 

#这里返回的类型列表,而这个网页中只有一个h1标签，索引为0来得到title 
print type(title) 
print title[0]

打印出来就得到我们需要的h1标签的标题：

# <type 'list'> 
# 豆瓣电影排行榜

再来看看提取属性方法，例如下面的这些电影的链接列表，是在a标签中的href属性中。

要想精确的定位到该标签，我们能可以先定位到这个a标签的父标签div，

<div class="pl2">...</div>

因此可以写成：

# coding:utf-8 
import requests 

from lxml import html 
url = 'https://movie.douban/chart' 

r = requests.get(url).content 
sel = html.fromstring(r) 

# 提取h1标签 
title = sel.xpath("//h1/text()") 

# 提取链接 
links = sel.xpath('//div[@class="pl2"]/a/@href') 

# 上面返回的是所有符合条件的链接的列表，for循环来读取一下 
for link in links: 
    print link

控制台打印输出：

4，最后
以上就是xpath的常见的用法，提取网页信息一个高效的工具。大家可以试试提取这个网站的电影名称，评分等等信息来练练手。
感谢阅读！！！

本文标签：爬虫语法 python xpath

版权声明：本文标题：Python爬虫：XPath语法内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726435195h960079.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

【Python】ChatGPT的API调用并实现文章生成（附代码）

技术总结

2月前

实操目标：最近ChatGPT大火，在3.5版本后开放了接口API，所以很多人开始进行实操，这里我就用python来为大家实现一下，如何调用API并提问返回文章的说明实操内容：获取API书写python调用框架封装到pyqt中，实现U

chatgpt赋能python：Python切词：了解中文分词技术

技术总结

2月前

Python切词：了解中文分词技术什么是中文分词中文分词是将一段汉字文本切分成一个个有意义的词语的过程。这个过程在中文自然语言处理（NLP）中非常重要，因为汉字没有像英文字母那样有明确的分割符号，所以如果不做分词，机器很难理解汉字文

python笔记本电脑推荐2020_最新版：2020年适合程序员的推荐笔记本电脑

技术总结

2月前

购买编程笔记本电脑时，一套明智的基准规格包括至少8GB内存，不错的SSD，强大的集成GPU和i5或i7处理器。尽管这些基准测试配置不错，但不足以帮助您找

基于python+django学生信息管理系统设计与实现（毕业论文+毕设源码）

技术总结

2月前

基于python学生信息管理系统设计与实现摘要随着互联网技术的加快发展，计算机电脑硬件也在不断的迭代升级，而每年大学生不断的扩招，学院的增加，对

Python Webdriver 重新使用已经打开的浏览器实例_java webdriver使用已打开过的chrome(1)

技术总结

2月前

通过webdriver启动一个浏览器会话大概会有这样三个阶段: 1、启动的浏览器驱动代理(hromedriver，Firefox的驱动程序，等等)； 2、创建一个命令执行

学python用什么配置电脑,python编程用什么笔记本

技术总结

2月前

这篇文章主要介绍了python编程需要什么配置的电脑，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。大家好&am

火车头采集器python CHATGPTAI改写插件使用教程！

技术总结

2月前

大家好我是淘小白，关于火车头的AI改写插件的环境配置和使用教程，今天来给大家整理一下，请购买过的朋友，按照这个教程自行操作~ 1、规则&插件

利用 Windows 子系统 Linux（WSL）开发 Python 环境搭建

技术总结

1月前

利用 Windows 子系统 Linux（WSL）开发 Python 一、启用适用于 Linux 的 Windows 子系统二、安装 Linux 分发版三、安装并配置 Visual Studio

大模型：Python调用chatgpt的三种方法

技术总结

1月前

OpenAI 是一个人工智能研究实验室和公司，而 ChatGPT 是 OpenAI 开发的一种基于语言模型的对话系统。ChatGPT 是 OpenAI 在自然语言处理领域的重要成果之一，它使用了大

为什么用python提取html不全,python

技术总结

1月前

2021-11-2记一次win7下python两种版本的完全安装

技术总结

1月前

记一次win7下python两个版本的完全安装 **pip要用管理员运行！！！****pip要用管理员运行！！&#xff0

局部页面切换url为什么不变_python爬虫 - 翻页url不变网页的爬虫探究！

技术总结

29天前

python爬虫-翻页url不变网页的爬虫探究 url随着翻页改变的爬虫已经有非常多教程啦，这里主要记录一下我对翻页url不变网页的探究过程。学术菜鸡第一次写CSDN，请大家多多包容～如果对你有一点点帮助，请帮我点个赞吧！翻页url不变

局部页面切换url为什么不变_python爬虫 - 翻页url不变网页的爬虫探究

技术总结

29天前

python爬虫-翻页url不变网页的爬虫探究 url随着翻页改变的爬虫已经有非常多教程啦，这里主要记录一下我对翻页url不变网页的探究过程。学术菜鸡第一次写CSDN，请大家多多包容～如果对你有一点点帮助，请帮我点个赞吧！翻页url不变

在windows7(64位)下安装python(3.4)的theano库

技术总结

18天前

2个多小时，同样热泪盈眶~我是win10Anaconda的python2.7，问题基本一致转载自： http:yiisama.lofterpost1cc07f63_

python登录华为路由器

技术总结

16天前

最近工作需要，利用华为路由器和TP-Link交换机，临时搭建了一个基于4G网络的局域网，为了可以在后台及时将流量断开节省流量，特别研究了一下pyhon中

Python—selenium实现自动打开360浏览器并自动登录社保网站

技术总结

14天前

使用selenium打开360浏览器需要一点技巧，因为360浏览器其实是Chrome的内核，所以需要先查清楚对于的内核版本，打开帮助-关于360浏览器，

windows 下配置python WSGI

技术总结

13天前

文章目录 1. apache下载2. mod_wsgi3.测试网页 windows下的WEB服务器安装环境。环境：WIN7开发语言： Python后台框架：DjangoF

windows下python常用库的安装

技术总结

11天前

windows下python常用库的安装，前提安装了annaconda 的python开发环境。只要已经安装了anaconda，要安装别的库就很简单了。只要使用pip即可，正

【Python】Windows：Python 3.9.2 下载和安装

技术总结

11天前

目录一、Python 下载二、Python 安装三、Python 配置四、Python 验证一、Python 下载官网下载地址：Python Releases for Windows | Pytho

Python 自动配置 pip 支持库（通过 Windows Bat 脚本）

技术总结

1天前

一、功能介绍经常重装系统的人都知道，安装各种软件是件很麻烦的事情，即使你有安装包也要把它们都重装一遍。今天给大家带来的是一套 Python 自动装库的脚本，可以自己修

发表评论

全部评论 0

暂无评论

推荐文章

Linux笔记（7 8 9 10 11 12）

局部页面切换url为什么不变_python爬虫 - 翻页url不变网页的爬虫探究！

springboot2原理实战(16)

win下使用curl

android rom打包解包工具,Android ROM定制：boot.img、recovery解包打包

热门文章

最新文章