admin 管理员组

文章数量: 887021

文章目录

    • 项目简介
    • 一、创建项目
      • 1、终端创建项目
      • 2、修改配置
    • 二、爬取列表数据
      • 1、数据分析
      • 2、模型建立
      • 3、存储为 json 数据
      • 4、存储为 mysql 数据
    • 三、爬取列表下一页及所有数据
      • 1、特征分析
      • 2、编写方法
    • 四、图片
      • 1、添加图片保存地址
      • 2、添加图片请求
      • 3、添加图片管道
    • 五、爬取详情
    • 六、添加下载中间件
      • 1、代理 USER_AGENT
      • 2、IP 池 PROXIES
    • 七、设置日志
      • 1、设置日志级别
      • 2、设置日志保存地址


项目简介

eleduck 电鸭 是一款远程工作的招聘交流网站。这里仅做学习使用。


一、创建项目

1、终端创建项目

$ scrapy startproject WebScrapy  # 创建项目
$ tree

$ cd WebScrapy  # 进入项目文件
$ scrapy genspider eleduck "https://eleduck" # 创建爬虫
$ tree
 

# 检查爬虫
$ scrapy check eleduck  # 此处根据爬虫的名字来区分,而非文件名
--------

本文标签: 爬虫 招聘网站 scrapy 爬取某