首页技术总结正文内容

【Python爬虫】初识爬虫（1）

技术总结

更新时间：2024-12-23 03:31:46 2

admin 管理员组

文章数量: 887021

写在前面

之前写了两篇关于爬虫的文章微信好友大揭秘，赵雷到底在唱什么，纯粹是自己的兴趣引导自己学习爬虫，关注里应该有好多对爬虫感兴趣的小伙伴，为了巩固自己的爬虫知识，从今天开始更新python爬虫这个基础教程，自己准备了挺长时间整理了自己的学习笔记，希望能给初学者带来一点帮助，在这个教程里我会给大家介绍爬虫常用的库跟大家做几个有意思的Demo。这篇文章主要是让大家了解爬虫和爬虫需要的基础知识，话不多说，我们开始吧。

什么是爬虫？

爬虫就是请求网站并提取数据的自动化程序，从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。举个小栗子来加深印象，如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的数据。

爬虫的基本流程

发起请求，通过使用HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，并等待服务器响应。
获取响应内容如果服务器能正常响应，则会得到一个Response，Response的内容就是所要获取的页面内容，其中会包含：html，json，图片，视频等。
解析内容得到的内容可能是Html数据，可以使用正则表达式，第三方解析库如Beautifulsoup，pyquery等，要解析json数据可以使用json模块，二进制数据，可以保存或者进一步的处理。
保存数据保存的方式比较多元，可以存入数据库也可以使用文件的方式进行保存。

字符串的区别和转化

为什么要掌握python3字符串的相关知识？
在我们爬虫过程中url，响应内容，提取的数据都是字符串，因此我们需要去了解字符串的相关知识。大家都知道bytes是一个二进制，当然互联网的数据都是以二进制的方式传输的；str是unicode的呈现形式，后续的爬虫过程中少不了两者的相互转换，str使用encode方法转换成bytes，bytes通过decode转化为str，值的引起注意的是编码方式解码方式必须一样，否则就会出现乱码。

Http和Https

我们在爬虫过程中需要运用到Http的相关知识，在这里简单的给大家介绍Http和Https的相关概念。
HTTP是超文本传输协议，被用于在Web浏览器和网站服务器之间传递信息，HTTP协议以明文方式发送内容，不提供任何方式的数据加密，如果攻击者截取了Web浏览器和网站服务器之间的传输报文，就可以直接读懂其中的信息，默认端口号：80。
为了解决HTTP协议的这一缺陷，需要使用另一种协议：安全套接字层超文本传输协议HTTPS，为了数据传输的安全，HTTPS在HTTP的基础上加入了SSL协议，SSL依靠证书来验证服务器的身份，并为浏览器和服务器之间的通信加密，默认端口号：443。

URL的形式

这是我们需要了解一个url的基本形式。
scheme:协议例如http https ftp
host：服务器的ip地址或者域名
port：服务器的端口，协议的默认端口是80或者443
path：访问资源的路径
query-string ：参数，发送给http服务器的数据，以？开头 &链接
anchor：锚跳转到网页的指定锚点位置
可以对应的看一下百度网址：
https://www.baidu/baidu?wd=%E7%99%BE%E5%BA%A6&tn=monline_dg&ie=utf-8

Http请求格式

这里带大家简单的了解Http请求的格式：
Host：主机和端口号
Connection：连接类型
User-Agent:浏览器名称
Accept：传输文件类型
Accept-Encoding：文件编码格式
Cookie：cookie
X-Requested-With：Ajax异步请求

浏览器中可以查看具体请求头数据，以百度为例：
GET / HTTP/1.1 使用Get方法 Http协议
Host: www.baidu
Connection: keep-alive 表示长链接，想要复用上次的链接，目的提高响应时间
Accept: text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01 浏览器身份标识
X-Requested-With: XMLHttpRequest
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36
Accept-Encoding: gzip, deflate, br Accept-Language: zh-CN,zh;q=0.9 Cookie: BAIDUID=E67EB919B93326D6D11DE4F2688038F8:FG=1;

Request与Response

浏览器就发送消息给该网址所在的服务器，这个过程叫做HTTP Request。服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容，做相应处理，然后把消息回传给浏览器。这个过程叫做HTTP Response。浏览器收到服务器的Response信息后，会对信息进行相应处理，然后展示。
Resquest中主要包含请求方式，请求头，请求体和请求URL，Response中包含响应状态，响应头，响应体。

抓取的数据都是什么样的？

我们爬取来的数据一般都是网页文本（HTML文档、Json格式文本），图片或者视频（获取到的是二进制文件，相应的保存为图片或者视频格式）。

怎样解析数据

在将我们抓取到的数据进行解析的时候需要用到下面的方法：直接处理，json解析，正则表达式，BeautifulSoup，PyQuery，XPath。

总结

1、爬虫流程：
请求--->获取响应--->解析--->存储
2、爬虫所需工具：
请求库：requests,selenium（可以驱动浏览器解析渲染CSS和JS，但有性能劣势（有用没用的网页都会加载）
解析库：正则，beautifulsoup，pyquery
存储库：文件，MySQL，Mongodb，

【推荐阅读】

【LeetCode】汇总贴（NO.1-20）

机器学习实战--住房月租金预测（1）

用Python来一场人工造雪

Python人工造雪2.0（动态版）

本文标签：爬虫 python

版权声明：本文标题：【Python爬虫】初识爬虫（1）内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726379500h948707.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

【Python爬虫】初识爬虫（1）

写在前面

什么是爬虫？

爬虫的基本流程

字符串的区别和转化

Http和Https

URL的形式

Http请求格式

Request与Response

抓取的数据都是什么样的？

怎样解析数据

总结

更多相关文章

python软件安装2020免费的,python软件安装路径

Win7 32位系统下Sublime text 3的安装以及配置CC++、java、python的开发环境方法

python数据分析好项目

python安装文件或目录损坏_文件或目录损坏且无法读取的解决办法

【爬虫基础】第3讲 常见浏览器User-Agent大全

自制简易浏览器(Python)

Python爬虫之浏览器User-Agent大全

Python从入门到摔门（7）：【总结】浏览器 User-Agent 大全

Python Webdriver 重新使用已经打开的浏览器实例_java webdriver使用已打开过的chrome(1)

【python+appium】使用appium 操作安卓模拟器

Python网络爬虫——爬取小视频网站源视频！自己偷偷看哦！

为什么用python提取html不全,python

2021-11-2记一次win7下python两种版本的完全安装

win10上使用pyinstaller工具打包python后在win7无法运行（运行报错）

2024年Python最全Python 集合之旅(2)

【Scrapy爬虫框架】：快速掌握 scrapy 爬虫框架以及了解原理

OpenAI 推出新网络爬虫GPTBot，为GPT-5做准备

(Windows)Python 3.8.1 下载安装运行

python编的程序转换成android可执行代码_有python代码怎么编成可执行的exe程序?

Python 自动配置 pip 支持库（通过 Windows Bat 脚本）

发表评论

推荐文章

Hybird app阶段分析

Ansible 小手册系列 十二（Facts）

电脑睡眠后并未进行休眠状态，风扇还在转怎么解决

激活Win8.1

UOS共享文件夹给windows系统访问的方法

热门文章

企业云服务的风险及应对策略

matplotlib画饼图

BUAACO

pytorch实战5——DataLoader数据集制作

mybatis: 简单增删改

AMI AFU Windows系统环境刷新及提取BIOS

GmSSL在windows下编译，安装（一）

windows-sys14：windows11U盘安装

打开计算机 访问不到d盘,电脑无法访问d盘的解决方法

Caffe(CPU-only)版本在windows下的安装及配置

最新文章

【爬虫基础】第3讲常见浏览器User-Agent大全

Ansible 小手册系列十二（Facts）

打开计算机访问不到d盘,电脑无法访问d盘的解决方法