admin 管理员组文章数量: 887021
文章目录
-
- 安装
- 步骤
-
- 新建爬虫项目 - scrapy startproject
- 明确数据目标 - disease/items.py
- 制作网页爬虫 - spiders/MedicaldataSpider.py
-
-
- 创建爬虫
- 配置爬虫
- 取数据
- 提取其他信息
- 保存数据
-
安装
sudo pip install scrapy
python3环境配置
步骤
- 新建爬虫项目 (scrapy startproject name)
- 明确数据目标 (编写 items.py)
- 制作网页爬虫 (spiders/xxspider.py)
- 存储爬取内容 (pipelines.py)
新建爬虫项目 - scrapy startproject
终端进入项目目录
scrapy startproject spiderName
spiderName - 项目名称
系统创建一个 spiderName 文件夹,目录结构:
spiderName/
scrapy.cfg 项目配置文件
spiderName/ Python模块 - 从这里引用代码
__init__.py
items.py 目标文件
pipelines.py
settings.py 设置文件
spiders/ 存储爬虫代码目录
__init__.py
...
明确数据目标 - disease/items.py
目标:抓取 http://yao.xywy/class/4-0-0-1-0-1.htm 网站里的药品的名称、生产公司和功能主治
打开 disease 目录下的 items.py
- Item 定义结构化数据字段,用来保存爬取到的数据
scrapy.Item 创建一个类
scrapy.Field 定义类型类属性
创建一个 MedicaldataItem 类,构建 item 模型
import scrapy
class MedicaldataItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field() # 药品名称
company = scrapy.Field() # 生产公司
function = scrapy.Field() # 功能主治
制作网页爬虫 - spiders/MedicaldataSpider.py
爬虫功能 : 爬 => 取
创建爬虫
创建一个名为Medicaldata的爬虫,并指定爬取域的范围:
cd disease
scrapy genspider Medicaldata "http://yao.xywy"
打开 dise
版权声明:本文标题:mac 环境下 Scrapy 入门 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1726433396h959754.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论