首页技术总结正文内容

为何大量网站不能抓取爬虫突破封禁的6种常见方法

技术总结

更新时间：2024-12-23 07:30:19 13

admin 管理员组

文章数量: 887021

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。

本文假定读者已经了解如何用代码来抓取一个远程的 URL，并具备表单如何提交及 JavaScript 在浏览器如何运行的机制。想更多了解网络数据采集基础知识，可以参考文后的资料。

在采集网站的时会遇到一些比数据显示在浏览器上却抓取不出来更令人沮丧的事情。也许是向服务器提交自认为已经处理得很好的表单却被拒绝，也许是自己的 IP 地址不知道什么原因直接被网站封杀，无法继续访问。

原因可能是一些最复杂的 bug，也可能是这些 bug 让人意想不到（程序在一个网站上可以正常使用，但在另一个看起来完全一样的网站上却用不了）。最有可能出现的情况是：对方有意不让爬虫抓取信息。网站已经把你定性为一个网络机器人直接拒绝了，你无法找出原因。

接下来就介绍一些网络采集的黑魔法（HTTP headers、CSS 和 HTML 表单等），以克服网站阻止自动采集。不过，先让我们聊聊道德问题。

网络爬虫的道德与礼仪

说实话，从道德角度讲，写作以下文字不易。我自己的网站被网络机器人、垃圾邮件生成器、网络爬虫和其他各种不受欢迎的虚拟访问者骚扰过很多次了，你的网站可能也一样。既然如此，为什么还要介绍那些更强大的网络机器人呢？有几个很重要的理由。

白帽子工作。在采集那些不想被采集的网站时，其实存在一些非常符合道德和法律规范的理由。比如我之前的工作就是做网络爬虫，我曾做过一个自动信息收集器，从未经许可的网站上自动收集客户的名称、地址、电话号码和其他个人信息，然后把采集的信息提交到网站上，让服务器删除这些客户信息。为了避免竞争，这些网站都会对网络爬虫严防死守。但是，我的工作要确保公司的客户们都匿名（这些人都是家庭暴力受害者，或者因其他正当理由想保持低调的人），这为网络数据采集工作创造了极其合理的条件，我很高兴自己有能力从事这项工作。
虽然不太可能建立一个完全“防爬虫”的网站（最起码得让合法的用户可以方便地访问网站），但我还是希望以下内容可以帮助人们保护自己的网站不被恶意攻击。下文将指出每一种网络数据采集技术的缺点，你可以利用这些缺点保护自己的网站。其实，大多数网络机器人一开始都只能做一些宽泛的信息和漏洞扫描，接下来介绍的几个简单技术就可以挡住 99% 的机器人。但是，它们进化的速度非常快，最好时刻准备迎接新的攻击。
和大多数程序员一样，我从来不相信禁止某一类信息的传播就可以让世界变得更和谐。

阅读之前，请牢记：这里演示的许多程序和介绍的技术都不应该在网站上使用。

爬虫黑科技：

网络机器人看起来像人类用户的一些方法

网站防采集的前提就是要正确地区分人类访问用户和网络机器人。虽然网站可以使用很多识别技术（比如验证码）来防止爬虫，但还是有一些十分简单的方法，可以让你的网络机器人看起来更像人类访问用户。

1.　构造合理的 HTTP 请求头

除了处理网站表单，requests 模块还是一个设置请求头的利器。HTTP 的请求头是在你每次向网络服务器发送请求时，传递的一组属性和配置信息。HTTP 定义了十几种古怪的请求头类型，不过大多数都不常用。只有下面的七个字段被大多数浏览器用来初始化所有网络请求（表中信息是我自己浏览器的数据）。

经典的 Python 爬虫在使用 urllib 标准库时，都会发送如下的请求头：

如果你是一个防范爬虫的网站管理员，你会让哪个请求头访问你的网站呢？

安装 Requests

可在模块的网站上找到下载链接（http://docs.python-requests/en/latest/user/install/）和安装方法，或者用任意第三方 Python 模块安装器进行安装。

请求头可以通过 requests 模块进行自定义。https://www.whatismybrowser/ 网站就是一个非常棒的网站，可以让服务器测试浏览器的属性。我们用下面的程序来采集这个网站的信息，验证我们浏览器的 cookie 设置：

程序输出结果中的请求头应该和程序中设置的 headers 是一样的。

虽然网站可能会对 HTTP 请求头的每个属性进行“是否具有人性”的检查，但是我发现通常真正重要的参数就是 User-Agent。无论做什么项目，一定要记得把 User-Agent 属性设置成不容易引起怀疑的内容，

本文标签：爬虫常见方法网站

版权声明：本文标题：为何大量网站不能抓取爬虫突破封禁的6种常见方法内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1723908866h745309.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

为何大量网站不能抓取 爬虫突破封禁的6种常见方法

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

网络爬虫的道德与礼仪

爬虫黑科技：

网络机器人看起来像人类用户的一些方法

1. 构造合理的 HTTP 请求头

更多相关文章

成功率很高的硬盘坏道软修复方法——————【Badboy】

Windows系统中常见的文件后缀名有哪些

windows7设置任务栏按钮【从不合并】并且【隐藏标签】的方法

Windows7下使用Tsmmc.msc远程管理工具的方法

Shopee虾皮登录不了的常见原因及解决方式

Open WebUI | 自托管的 ChatGPT 网站

Windows XP SP1源代码编译方法(笔记)

Js判断linux还是windows,js获取客户端操作系统类型的方法【测试可用】

在windows710系统下安装TensorFlow-GPU版本的方法

Windows7安装PowerShell5.1方法（Flutter新版本需要）

win11电脑蓝屏的解决以及学习过程加cmd快捷键加对话框的常见命令

windows十大常见解决问题

windows11安装方法

IntelliJ IDEA 2018.2（Ultimate Edition）激活方法

cmd清理打印机缓存_如何清理C盘垃圾 清理C盘垃圾方法【详解】

win7语音识别组件安装_win7系统安装PCS7方法

QT POST方法：以使用腾讯云发送短信为例

2020网站APPWebshell在线查毒 电脑软件查毒大全

Win7电脑开不了机如何重装Win7系统？电脑开不了机重装系统的方法

Windows 7设置定时重启任务方法

发表评论

推荐文章

win系统网络重置

windows下gdal的java开发环境搭建

基于Windows系统搭建micropython原生开发环境

linux avg 强力卸载,彻底卸载AVG维护清理软件

64位WIN7下32位的ODBC配置

热门文章

network

矩阵游戏

动态规划——1302：股票买卖

Hinton、LeCun、Bengio联合署名深度学习综述（重点摘要）

牛客练习赛60 A 大吉大利 题解（位运算）

Rhythm of the rain

微信小程序分销商城源码系统 带完整搭建教程

联想修复服务器系统还原,如何使用Windows恢复环境（Re）修复Windows 10系统

Windows 必装免费软件推荐（2）

Python 自动配置 pip 支持库（通过 Windows Bat 脚本）

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统 含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

为何大量网站不能抓取爬虫突破封禁的6种常见方法

1.　构造合理的 HTTP 请求头

cmd清理打印机缓存_如何清理C盘垃圾清理C盘垃圾方法【详解】

2020网站APPWebshell在线查毒电脑软件查毒大全

牛客练习赛60 A 大吉大利题解（位运算）

微信小程序分销商城源码系统带完整搭建教程

（Windows系统）详细介绍Windows系统含有英文版