admin 管理员组

文章数量: 887016

一,scrapy框架的工作流程

首先由引擎爬虫程序索要第一个要爬取的URL,交给调度器去入队列-->调度器处理请求后出队列,通过下载器中间件交给下载器去下载-->下载器得到响应对象后,通过蜘蛛中间件交给爬虫程序-->爬虫程序进行数据提取-->数据交给管道文件取入库处理,对于需要跟进的URL,再次交给调度器入队列,依次循环!

二,编写items.py文件(主要是用来定义爬取的文件和保存)

三,编写spiders爬虫文件

首先scrapy框架中由引擎爬虫程序索要第一个要爬取的URL, 再把招聘信息的网址封装成requests对象,在Scrapy里,获取网页源代码会由引擎分配交给下载器去做,不需要我们自己处理(也就是不需要requests.get())。我们之所以要构造新的requests对象,是为了告诉引擎,我们新的请求需要传入什么参数,这样才能让引擎拿到的是正确requests对象,交给下载器处理。

 

本文标签: 腾讯 招聘信息 实战 scrapy