首页技术总结正文内容

python—爬虫练习题（scrapy）

技术总结

更新时间：2024-12-23 02:09:44 2

admin 管理员组

文章数量: 887021

一、爬取 51job

1.1 新建scrapy项目:

在D:\learning_code_scrapy （自定义）文件夹目录中执行cmd打开终端
终端执行：scrapy startproject Test_Monday_job51
使用pycharm打开文件：Test_Monday_job51（使用新窗口打开）

1.2 编写scrapy项目:

◆ 编辑 items.py 文件
import scrapy
from scrapy import Item,Field

class TestMondayItem(scrapy.Item):
    jobName = Field()                  # 工作名称
    ComName = Field()                  # 公司名称
    adress  = Field()                  # 工作地点
    money =   Field()                  # 薪资
    releaseTime = Field()              # 发布时间
    pass


◆ 在spiders 文件夹下 创建 Get_Data_job51.py 文件并编辑
from scrapy.selector import Selector
from scrapy.spiders import CrawlSpider
from Test_Monday_job51.items import TestMondayItem

class Get_Data_job51(CrawlSpider):
    pageNum = 1                      #初始化页面
    name = "Get_Data_job51"          #与文件名同名
    start_urls = ['https://search.51job/list/020000,000000,0000,00,9,99,%25E4%25\
    BA%25BA%25E5%25B7%25A5%25E6%2599%25BA%25E8%2583%25BD,2,1.html?lang=c&stype=\
    1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&\companysize=\
    99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=4&dibiaoid\
    =0&address=&line=&specialarea=00&from=&welfare=']

    def parse(self, response):
        Get_Data_job51.pageNum += 1   #获取下一页
        selector = Selector(response)
        item = TestMondayItem()
        Infos = selector.xpath('//div[@id="resultList"][1]//div[@class="el"]')
        print(len(Infos))

        for each in Infos:
            jobName = each.xpath('p/span/a/@title').extract()
            ComName = each.xpath('span[@class="t2"]/a/@title').extract()
            adress = each.xpath('span[2]/text()').extract()
            money = each.xpath('span[3]/text()').extract()
            releaseTime = each.xpath('span[4]/text()').extract()
            print(jobName,"\n",ComName,"\n",adress,"\n",money,"\n",releaseTime)

            item['jobName'] = jobName
            item['ComName'] = ComName
            item['adress'] = adress
            item['money'] = money
            item['releaseTime'] = releaseTime

            yield item                      #提交 item

        nextlink = selector.xpath('//div[@id="resultList"][1]//li[@class="bk"][2]/a/@href').extract()[0]
        if Get_Data_job51.pageNum<5 and nextlink:
            yield Request(nextlink,callback=self.parse)


◆ 在Test_Monday_job51文件夹下 创建 main.py 文件（与items文件同级）并编辑
from scrapy import cmdline
cmdline.execute("scrapy crawl Get_Data_job51".split())


◆ 编辑 pipline.py 文件(先将默认类注释)
class json_TestMondayPipeline(object):      #保存为json文件格式

    def __init__(self):

        #打开或新建文件
        self.file = open('json_51job.json','w',encoding='utf-8')
    def process_item(self,item,spider):     #写入item 数据
        line = json.dumps(dict(item),ensure_ascii=False)+"\n"

        #处理行数据
        self.file.write(line)
        return item
    def close_spider(self,spider):
        self.file.close()

----------------------------------------------------------------------------------------------- 
class Excel_TestMondayPipeline(object):            #保存为 Excel 文件格式
    index = 0
    def __init__(self):

        self.wk = xlwt.Workbook(encoding='utf-8')   #打开或新建文件
        self.sheet = self.wk.add_sheet('51job')
        field = ['职位名','公司名','工作地址','薪资','发布时间',]
        for i ,v in enumerate(field):
            self.sheet.write(0,i,v)

    def process_item(self,item,spider):            #写入item 数据
        Excel_TestMondayPipeline.index += 1
        for j, v in enumerate(item.keys()):
            self.sheet.write(Excel_TestMondayPipeline.index, j, item[v])
        return item

    def close_spider(self,spider):
        self.wk.save('51job.xls')                 # 保存文件 


◆ 设置 settings.py ( 找到 ITEM_PIPELINES 并编辑)
ITEM_PIPELINES = {
   # 'Test_Monday_job51.pipelines.json_TestMondayPipeline': 300,     #保存文 json 文件
   'Test_Monday_job51.pipelines.Excel_TestMondayPipeline': 300,    #保存为 excel 文件
}

#释放 DOWNLOAD_DELAY

DOWNLOAD_DELAY = 3            #延时 3 秒

二、爬取梦幻西游门派音乐

Scrapy结合 CSS+xpath

win+r 打开cmd 执行：scrapy startproject Music

◆ 在 spiders 目录下创建Get_Music.py文件
from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from Music.items import MusicItem
import re

class Music_menghua(CrawlSpider):
    name = "Get_Music"
    start_urls = ["http://xyq.163/download/down_music.html"]
    def parse(self, response):
        item = MusicItem()
        selector = Selector(response)
        Music_List = selector.css('#dLeft .g-clr section')[0].css('tbody tr')
        for tr in Music_List:
            music_name = tr.xpath('td[1]/text()')[0].extract()
            time_range = tr.xpath('td[2]/text()')[0].extract()
            music_link = tr.xpath('td[3]/a/@href').extract()
            print('3333333333333333333333333333', time_range)
            # 给item赋值
            item['music_name'] = music_name     # 歌名
            item['time_range'] = time_range     # 歌曲大小
            item['music_link'] = music_link     # 链接
            yield item

◆ 编辑 items.py文件
import scrapy
from scrapy import Field,Item

class MusicItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    music_name = Field()
    time_range = Field()
    music_link = Field()
    pass

◆ 编辑 settings.py 文件
BOT_NAME = 'Music'

SPIDER_MODULES = ['Music.spiders']
NEWSPIDER_MODULE = 'Music.spiders'

USER_AGENT  =['Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5']
FEED_URI = u'file:///D:/learning_code_scrapy/Music.csv'      #文件保存路径
FEED_FORMAT = 'CSV'

◆ 在spiders新建main.py(主函数)，并编辑。--与items.py为同级文件
from scrapy import cmdline
cmdline.execute("scrapy crawl Get_Music".split())

本文标签：爬虫练习题 python scrapy

版权声明：本文标题：python—爬虫练习题（scrapy）内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726436005h960233.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

python—爬虫练习题（scrapy）

一、爬取 51job

1.1 新建scrapy项目:

1.2 编写scrapy项目:

二、爬取梦幻西游门派音乐

Scrapy结合 CSS+xpath

更多相关文章

【Python】ChatGPT的API调用并实现文章生成（附代码）

python笔记本电脑推荐2020_最新版：2020年适合程序员的推荐笔记本电脑

火车头采集器python CHATGPTAI改写插件使用教程！

python写windows窗口程序-用python写windowGUI程序

计算机win7基础知识题库,WIN7操作系统练习题题库版

windows系统下Python环境的搭建

【python+appium】使用appium 操作安卓模拟器

怎么安装并激活Python

java使用webMagic爬虫

qt界面和python怎么交互_Python GUI界面编程-初识

安装Python 提示缺少Windows 7 Service Pack 1不一样的方法 。Log File提示缺少KB2533625

局部页面切换url为什么不变_python爬虫 - 翻页url不变网页的爬虫探究！

python登录华为路由器

Windows 10 使用 PowerShell 7 + Windows Terminal 及乱码、不显示 python环境问题

windows 下配置python WSGI

【Python】Windows：Python 3.9.2 下载和安装

python控制手机模拟器_AppiumDesktop控制手机和安卓模拟器（附视频）

【Ubuntu 22.04】VMware 17 安装Ubuntu 22.04+配置VSCode+Python开发环境

哈工大LTP：Windows系统Python本地调用

Python 自动配置 pip 支持库（通过 Windows Bat 脚本）

发表评论

推荐文章

OTFS调制

谁会将Android从Google身边偷走？

centos7访问win7共享文件夹

windows 修改(pipconda)镜像源

dell服务器vhd系统还原,win7系统盘里有VHD文件 有办法还原吗？我没备份

热门文章

恢复Windows默认文件资源管理器（Files设置后，恢复亲测可用）

如何使用 JavaScript 代码连接部署在 SAP ABAP 服务器上的 OData 服务试读版

No07.使用API获取SAP S4 HANA Cloud中的凭证行项目（二）

基于STM32 CDC模拟CH340

2022年门座式起重机司机复训题库模拟考试平台操作

windows系统一键还原按哪个键

Windows网络问题：局域网内电脑连接wifi连不上

Torch 安装教程 windows系统

Windows Subsystem for Linux (WSL, Ubuntu) 最新安装教程（2024.11 更新）

windows 7 RTM build 7600.16385安装step by step（虚拟光驱双系统方式）

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统 含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

安装Python 提示缺少Windows 7 Service Pack 1不一样的方法。Log File提示缺少KB2533625

dell服务器vhd系统还原,win7系统盘里有VHD文件有办法还原吗？我没备份

（Windows系统）详细介绍Windows系统含有英文版