技术交流 – FreeNAS中文网

FreeNAS中文网是一个编程技术交流的平台，欢迎技术员程序猿前来投稿！

扫一扫

扫一扫

首页技术总结正文内容

mac 环境下 Scrapy 入门

技术总结

更新时间：2024-12-23 03:49:29 1

admin 管理员组

文章数量: 887021

文章目录

- 安装
- 步骤
- - 新建爬虫项目 - scrapy startproject
  - 明确数据目标 - disease/items.py
  - 制作网页爬虫 - spiders/MedicaldataSpider.py
  - - - 创建爬虫
      - 配置爬虫
      - 取数据
      - 提取其他信息
      - 保存数据

安装

sudo pip install scrapy

python3环境配置

步骤

新建爬虫项目（scrapy startproject name)
明确数据目标（编写 items.py）
制作网页爬虫（spiders/xxspider.py）
存储爬取内容（pipelines.py）

新建爬虫项目 - scrapy startproject

终端进入项目目录

scrapy startproject spiderName
spiderName - 项目名称

系统创建一个 spiderName 文件夹，目录结构：

spiderName/
    scrapy.cfg                项目配置文件
    spiderName/               Python模块 - 从这里引用代码
        __init__.py
        items.py              目标文件
        pipelines.py
        settings.py           设置文件
        spiders/              存储爬虫代码目录
            __init__.py
            ...

明确数据目标 - disease/items.py

目标：抓取 http://yao.xywy/class/4-0-0-1-0-1.htm 网站里的药品的名称、生产公司和功能主治

打开 disease 目录下的 items.py

Item 定义结构化数据字段，用来保存爬取到的数据
scrapy.Item 创建一个类
scrapy.Field 定义类型类属性

创建一个 MedicaldataItem 类，构建 item 模型

import scrapy

class MedicaldataItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()  # 药品名称
    company = scrapy.Field()  # 生产公司
    function = scrapy.Field()  # 功能主治

制作网页爬虫 - spiders/MedicaldataSpider.py

爬虫功能 : 爬 => 取

创建爬虫

创建一个名为Medicaldata的爬虫，并指定爬取域的范围：
cd disease

scrapy genspider Medicaldata "http://yao.xywy"

打开 dise

本文标签：入门环境 Mac scrapy

版权声明：本文标题：mac 环境下 Scrapy 入门内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726433396h959754.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

Windows下USB驱动开发入门小结

技术总结

24天前

今年刚从学校毕业，来到公司后学了学画板子然后经理便给了我了一块板子，需要用到USB传输数据，让我学习一下Windows驱动程序开发并将这个USB驱动解决。当时一脸懵逼&

查看计算机.net环境版本,windows7系统查看NET Framework版本的两种方法

技术总结

19天前

现在，很多用户都会在电脑中安装NET Framework，因为一些程序需要NET Framework才能运行。那么，如果想要查看我们计算机中的 NET Framework版本

Windows下配置IDEA开发环境

技术总结

18天前

Windows下配置IDEA开发环境文章目录 Windows下配置IDEA开发环境安装JDK查看JDK是否安装下载JDK配置环境变量安装IDEA下载IDEA安装IDEA初始化IDEA 安装JDK IDEA是 jetbrain 公司出品

Win11 删除“入门”和“Windows备份”以及 Win10 删除“Windows备份”的方法

技术总结

18天前

说明：此方法适用于已经安装好的Windows。 Win11 删除"入门"和"Windows备份": 1.将在C:WindowsSystemAppsMicrosoftWi

Windows PowerShell：Windows PowerShell的简介、入门、使用方法之详细攻略

技术总结

17天前

Windows PowerShell：Windows PowerShell的简介、入门、使用方法之详细攻略目录 Windows PowerShell的简介 PowerShell VS Unix Shell Wi

Windows环境下使用GTK

技术总结

17天前

一、前言维基百科：GTK（原名GTK）最初是GIMP的专用开发库（GIMP Toolkit），后来发展为U

windows+vscode配置C++环境

技术总结

17天前

windowsvscode配置C环境参考链接参考链接 1. 前提知识 g是C编译器 gcc是c编译器 MinGW 的全称是：Minimalist GNU on Windows MinGW 就是 GCC 的

苹果系统下载工具Mac Downloader

技术总结

13天前

下面给大家介绍一款苹果系统下载工具。 macOS High Sierra系统macOS Mojave系统macOS Catalina系统（最新）下载好后会放在桌面上百度云链接:

Windows7下Java环境搭建（JDK环境变量配置）

技术总结

13天前

Windows7下面Java环境的搭建是十分简单的，到oracle官网下载JDK安装包，安装在制定目录即可，最好把jdk路径和jre路径都放在同一个路径下。这里主要是一下

【开发工具】Windows环境下 IDEA 开发工具安装&配置（无错完整）

技术总结

13天前

目录一、开发工具下载： 二、IDE统一管理工具： 三、IDEA配置： 设置主题： 设置代码颜色： 设置编译字符编码&

windows下安装openresty_lua的开发环境

技术总结

13天前

windows下安装openresty 打开openresty的中文官网，下载网站为：http:openrestycndownload.html 。具体如下图启动nginx&

Mac 或 Windows 系统 F7 F8 按键不可用解决

技术总结

11天前

今天用 Mac 进行 Eclipse 调试代码，F7 F8 按键都不可用，作为 Programer 真的想跳楼！ 度娘了一下，发现有朋友提出重启 Do

ChatGPT入门案例｜商务智能对话客服（一）

技术总结

11天前

ChatGPT是人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具，使用了Transformer神经网络架构，也是GPT-3.5架构，这是一种用于处理序列数据的模型，拥有语言理解和文本生成能力，尤其是它会通过连接大

mac电脑pdf增强插件：Enfocus PitStop Pro 2022激活版

技术总结

10天前

Enfocus PitStop Pro 2022 是一款功能丰富、性能强大的 PDF 检查和编辑软件，适用于需要处理大量 PDF 文件的专业用户。该软件可以帮助用户提高工作效率，确保文档质量&am

Mac下删除.m2文件夹

技术总结

10天前

在eclipse中，创建maven项目的时候，pom文件添加的依赖，会自动的进行下载，但是未知情况下，比如断网&#xff0

Vmware系列&虚拟机系列【仅供参考】：vCenter8.0以上无DNS环境部署

技术总结

1天前

vCenter8.0以上无DNS环境部署 vCenter8.0以上无DNS环境部署无DNS解决办法1. 在安装-第1阶段:部署vCenter Sever的第7步配置网络设置注意FQDN和IP地址，DNS服务器地址都统一填vCenter的IP

yolov7环境搭建——Windows

技术总结

1天前

Windows下Anaconda4.9.2Pycharm CommunityCUDA10.1CUdnn7.6.5.32PyTorch1.7.1环境配置一、搭建anaconda 安装Anaconda主要是搭建python的虚拟环境&am

MySQL环境配置和Windows命令行登录

技术总结

1天前

目录一、环境配置二、登录语句三、注意事项四、退出操作一、环境配置当下载好MySQL后，需要进行环境配置以便我们在命令行中运用MySQL,环境配置方法如下： 1.找到MySQL的安装目录&a

Windows下配置pytorch环境

技术总结

1天前

最近跑模型时不小心安装了一些包，导致原来的依赖包都变了，运行时各种报错，最后采用最暴力解决办法：卸载Anaconda和pytorch&#xff0

windows11安装docker desktop和K8S环境创建镜像和运行dashboard

技术总结

1天前

文章目录简介windows11安装docker desktop开启虚拟机服务启动WSL服务即Linux系统和虚拟机安装更新为wsl2新版的Linux安装docker desktop installerwin11 安装docker desk

发表评论

全部评论 0

暂无评论

推荐文章

SSO:Win10+CAS+SpringBoot Project(二)

Layui table field多维数组嵌套渲染解决col field xxx.xxx.xx格式渲染问题

windows7安装.net framework 4.6遇到“0x80096005 时间戳签名和或证书无法验证或已损坏“问题

Windows本地安全策略操作指南

Mac解压缩软件BetterZip免费版注册码下载

热门文章

UEFI开发探索90
29天前
[附源码]java毕业设计基于javaweb电影购票系统
29天前
WIN 10专业版安装手册
27天前
Linux系统ISO镜像文件下载地址
19天前
最好用的电脑系统重装软件大盘点
16天前
路由器如何设置代理IP
16天前
Win7系统解决未签名驱动程序安装问题
12天前
如何在Mac电脑上优雅地使用Windows？(Parallels Desktop 15 中文版下载 - Mac 系统最强虚拟机)
11天前
windows embedded下载地址收集
11天前
Windows系统怎么查看电脑操作系统位数
1天前

最新文章

Error: Call to undefined function array_multisort_key() in /www/wwwroot/freenas.com.cn/tmp/model_misc_portal.func.php:191 Stack trace: #0 /www/wwwroot/freenas.com.cn/tmp/model_misc_portal.func.php(35): portal_index_thread(NULL) #1 /www/wwwroot/freenas.com.cn/tmp/_view_template_quzhiwa_htm_aside.inc.htm(64): portal_index_thread_cache(Array) #2 /www/wwwroot/freenas.com.cn/tmp/view_template_quzhiwa_htm_read.htm(146): include('/www/wwwroot/fr...') #3 /www/wwwroot/freenas.com.cn/tmp/route_read.php(205): include('/www/wwwroot/fr...') #4 /www/wwwroot/freenas.com.cn/tmp/index.inc.php(129): include('/www/wwwroot/fr...') #5 /www/wwwroot/freenas.com.cn/index.php(29): include('/www/wwwroot/fr...') #6 {main}