scrapy-FreeNAS中文网

admin 管理员组

文章数量: 887021

scrapy

背景：

前些天接手了上一位同事的爬虫，一个全网爬虫，用的是scrapy+redis分布式，任务调度用的scrapy_redis模块。

大家应该知道scrapy是默认开启了去重的，用了scrapy_redis后去重队列放在redis里面。我接手过来的时候爬虫已经有7亿多条URL的去重数据了，再加上一千多万条requests的种子，redis占用了一百六十多G的内存（服务器，Centos7），总共才一百七十五G好么。去重占用了大部分的内存，不优化还能跑？

一言不合就用Bloomfilter+Redis优化了一下，内存占用立马降回到了二十多G，保证漏失概率小于万分之一的情况下可以容纳50亿条URL的去重，效果还是很不错的！在此记录一下，最后附上Scrapy+Redis+Bloomfilter去重的Demo（可将去重队列和种子队列分开！），希望对使用scrapy框架的朋友有所帮助。

接下来还会对种子队列进行优化，详见：《scrapy_redis种子优化》。

记录：

我们要优化的是去重，首先剥丝抽茧查看框架内部是如何去重的。

因为scrapy_redis会用自己scheduler替代scrapy框架的scheduler进行任务调度，所以直接去scrapy_redis模块下查看scheduler.py源码即可。
在open()方法中有句self.df = RFPDupeFilter(...)，可见去重应该是用了RFPDupeFilter这个类；再看下面的enqueue_request()方法，里面有句if not request.dont_filter and self.df.request_seen(request):return，看来self.df.request_seen()这就是用来去重的了。
按住Ctrl再左键点击request_seen查看它的代码，可看到下面的代码：

def request_seen(self, request):fp = request_fingerprint(request)added = self.server.sadd(self.key, fp)return not added

可见scrapy_redis是利用set数据结构来去重的，去重的对象是request的fingerprint。至于这个fingerprint到底是什么，可以再深入去看request_fingerprint()方法的源码（其实就是用hashlib.sha1()对request对象的某些字段信息进行压缩）。我们用调试也可以看到，其实fp就是request对象加密压缩后的一个字符串（40个字符，0~f）。

是否可用Bloomfilter进行优化？
以上步骤可以看出，我们只要在这个request_seen()方法上面动些手脚即可。由于现有的七亿多去重数据存的都是这个fingerprint，所有Bloomfilter去重的对象仍然是request对象的fingerprint。更改后的代码如下：

    def request_seen(self, request):fp = request_fingerprint(request)if self.bf.isContains(fp):    # 如果已经存在return Trueelse:self.bf.insert(fp)return False

self.bf是类Bloomfilter()的实例化，关于这个Bloomfilter()类，详见《基于Redis的Bloomfilter去重（附Python代码）》。

以上，优化的思路和代码就是这样；以下将已有的七亿多的去重数据转成Bloomfilter去重。

内存将爆，动作稍微大点机器就能死掉，更别说Bloomfilter在上面申请内存了。当务之急肯定是将那七亿多个fingerprint导出到硬盘上，而且不能用本机导，并且先要将redis的自动持久化给关掉。
因为常用Mongo，所以习惯性首先想到Mongodb，从redis取出2000条再一次性插入Mongo，但速度还是不乐观，瓶颈在于MongoDB。（猜测是MongoDB对_id的去重导致的，也可能是物理硬件的限制）
后来想用SSDB，因为SSDB和Redis很相似，用list存肯定速度快很多。然而SSDB唯独不支持Centos7，其他版本的系统都可。。
最后才想起来用txt，这个最傻的方法，却是非常有效的方法。速度很快，只是为了防止读取时内存不足，每100万个fingerprint存在了一个txt，四台机器txt总共有七百个左右。
fingerprint取出来后redis只剩下一千多万的Request种子，占用内存9G+。然后用Bloomfilter将txt中的fingerprint写回Redis，写完以后Redis占用内存25G，开启redis自动持久化后内存占用49G左右。

福利福利：

献上Demo一个，链接：使用Bloomfilter去重的scrapy_redis。

Demo功能：启动spider1（或spider2），start_urls中有10条URL，其中4条是重复的，可以看到 parse1() 只处理了去重后的6条URL。

Demo去重功能的迁移：

将BloomfilterOnRedis_Demo目录下的 scrapy_redis 文件夹拷贝到你项目中settings.py的同级目录，在settings.py中增加几个字段：

FILTER_URL = None
FILTER_HOST = 'localhost'
FILTER_PORT = 6379
FILTER_DB = 0
# REDIS_QUEUE_NAME = 'OneName'   # 如果不设置或者设置为None，则使用默认的，每个spider使用不同的去重队列和种子队列。如果设置了，则不同spider共用去重队列和种子队列"""这是去重队列的Redis信息。原先的REDIS_HOST、REDIS_PORT只负责种子队列；由此种子队列和去重队列可以分布在不同的机器上。
"""

以上两个步骤即可实现BloomfilterOnRedis去重。（注意import scrapy_redis要改成import 项目名.scrapy_redis，即导入这个新的scrapy_redis，不要导错了！）
特别说明一下REDIS_QUEUE_NAME这个字段。刚才放在demo里面的有spider1和spider2，分别启动一下两个爬虫，可以看到两个爬虫的去重队列和种子队列的名字是不一样的，即不是共用一个去重队列和种子队列的。如果项目需要，不同spider也要使用同一个去重队列和种子队列，则将这个REDIS_QUEUE_NAME设置成你想要的名字，此时同一个项目下的不同爬虫也会使用同一个去重队列和种子队列。
如果待去重的数据量比较大，需要修改scrapy_redis/dupefilter.py中第14行的blockNum值，默认blockNum=1。Bloomfilter算法是有漏失概率的（即不存在的会误判为存在），在保证漏失率小于万分之一的情况下，一个blockNum可满足7千万条数据的去重，一个blockNum占用256M内存（注意Linux如果开了自动持久化，redis占用内存会加倍）。

转载请注明出处，谢谢！（原文链接：）

本文标签： scrapy

版权声明：本文标题：scrapy 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1687528273h112455.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

scrapy

scrapy

背景：

记录：

福利福利：

更多相关文章

scrapy

python3.5安装scrapy_win7+Python3.5下scrapy的安装方法

windows操作系统下通过Anaconda安装scrapy后出现ImportError: DLL load failed: 操作系统无法运行 %1

Scrapy-Redis Windows下多台机互联

mac 环境下 Scrapy 入门

scrapy中如何实现翻页抓取数据

python爬虫scrapy步骤mac系统_Python爬虫:Scrapy框架的安装和基本使用

scrapy发送翻页请求

爬虫 - Scrapy 爬取某招聘网站

爬虫框架：Scrapy 快速入门

Scrapy框架的使用之Scrapy通用爬虫

scrapy模拟ajax的post请求，爬取动态异步网页

python—爬虫练习题（scrapy）

Scrapy 爬取旅游景点相关数据（ 二 ）

scrapy结合selenium进行动态加载页面内容爬取

Scrapy框架的使用之Scrapy通用爬虫_为什么scrapy的parse_start_url和parse

Python爬虫学习 | Scrapy框架详解

scrapy实战--爬取腾讯的招聘信息

011：运用Scrapy爬取腾讯招聘信息

【Scrapy爬虫框架】：快速掌握 scrapy 爬虫框架以及了解原理

发表评论

推荐文章

电脑截图快捷键是哪个？分享3种截屏方法，轻松上手

jquery中的ajax封装逻辑,jQuery里面ajax请求的封装

智慧园区系统建设技术方案

[安卓手机安装Apk ] 安卓手机通过数据线在电脑下载本地的Apk应用

Windows7开启多用户登录远程桌面3389端口

热门文章

Win7共享文件夹无法访问怎么办,win7共享文件夹访问不了

工信部发布网站拍照备案说明图 规定或将实施

IntelliJ IDEA如何运行单个程序 且不报其他程序的错误

spark安装技巧

就业薪机会

技能高考计算机500分,技能高考多少分上大专 分数高吗

windows下搭建sftp服务端

[ Linux 命令基础 4 ] Linux 命令详解-文本处理命令

文档论文语法检查插件Grammarly，grammarly for Chrome ，grammarly for Windows

ChatGPT论文指南|ChatGPT论文写作过程中6个润色与查重口诀！【建议收藏】

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统 含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

Scrapy 爬取旅游景点相关数据（二）

工信部发布网站拍照备案说明图规定或将实施

IntelliJ IDEA如何运行单个程序且不报其他程序的错误

技能高考计算机500分,技能高考多少分上大专分数高吗

（Windows系统）详细介绍Windows系统含有英文版