爬虫(20)Scrapy知识补充+腾讯招聘案例+古诗文详情页+总结-FreeNAS中文网

admin 管理员组

文章数量: 887017

文章目录

第十八章腾讯招聘案例
- 1. 腾讯招聘案例
- 2. 代码实现
- - 2.1 配置项目
  - 2.2 解析数据
  - 2.3 翻页处理
  - 2.4 获取详情页信息
- 3. 古诗词网补充
- - 3.1 验证是否在源码中
  - 3.2 获取详情页地址
  - 3.3 项目补充
  - 3.4 发起请求
  - 3.5 定义解析详情页方法
- 4. log补充
- 5. scrapyshell讲解
- 6. settings补充
- 7. 总结
- - 7.1 scrapy项目结构
  - - 7.1.1 pipelines
    - 7.1.2 items
    - 7.1.3 settings
    - 7.1.4 spider

第十八章腾讯招聘案例

上节课我们学习了一个案例，操作了一下scrapy的流程，后面加了一个翻页处理。找到下一页的链接，找到链接之后生成一个scrapy.Request()对象，yield给引擎来处理。这是处理翻页的代码：

next_href = response.xpath('//a[@]/@href').extract_first()
 if next_href:
     next_url = response.urljoin(next_href) # 补全url 补全 1 拼串 2 urljoin()
     request = scrapy.Request(next_url)
     yield request

但在这里还有些知识点需要补充。我们按住Ctrl点击Request方法，进去看一眼。

class Request(object_ref):

    def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None, cb_kwargs=None):

        self._encoding = encoding  # this one has to be set first
        self.method = str(method).upper()
        self._set_url(url)
        self._set_body(body)
        if not isinstance(priority, int):
            raise TypeError(f"Request priority not an integer: {priority!r}")
        self.priority = priority

        if callback is not None and not callable(callback):
            raise TypeError(f'callback must be a callable, got {type(callback).__name__}')
        if errback is not None and not callable(errback):
            raise TypeError(f'errback must be a callable, got {type(errback).__name__}')
        self.callback = callback
        self.errback = errback

        self.cookies = cookies or {}
        self.headers = Headers(headers or {}, encoding=encoding)
        self.dont_filter = dont_filter

        self._meta = dict(meta) if meta else None
        self._cb_kwargs = dict(cb_kwargs) if cb_kwargs else None
        self.flags = [] if flags is None else list(flags)

    @property
    def cb_kwargs(self):
        if self._cb_kwargs is None:
            self._cb_kwargs = {}
        return self._cb_kwargs

    @property
    def meta(self):
        if self._meta is None:
            self._meta = {}
        return self._meta

    def _get_url(self):
        return self._url

    def _set_url(self, url):
        if not isinstance(url, str):
            raise TypeError(f'Request url must be str or unicode, got {type(url).__name__}')

        s = safe_url_string(url, self.encoding)
        self._url = escape_ajax(s)

        if (
            '://' not in self._url
            and not self._url.startswith('about:')
            and not self._url.startswith('data:')
        ):
            raise ValueError(f'Missing scheme in request url: {self._url}')

    url = property(_get_url, obsolete_setter(_set_url, 'url'))

    def _get_body(self):
        return self._body

    def _set_body(self, body):
        if body is None:
            self._body = b''
        else:
            self._body = to_bytes(body, self.encoding)

    body = property(_get_body, obsolete_setter(_set_body, 'body'))

    @property
    def encoding(self):
        return self._encoding

    def __str__(self):
        return f"<{self.method} {self.url}>"

    __repr__ = __str__

    def copy(self):
        """Return a copy of this Request"""
        return self.replace()

    def replace(self, *args, **kwargs):
        """Create a new Request with the same attributes except for those
        given new values.
        """
        for x in ['url', 'method', 'headers', 'body', 'cookies', 'meta', 'flags',
                  'encoding', 'priority', 'dont_filter', 'callback', 'errback', 'cb_kwargs']:
            kwargs.setdefault(x, getattr(self, x))
        cls = kwargs.pop('cls', self.__class__)
        return cls(*args, **kwargs)

    @classmethod
    def from_curl(cls, curl_command, ignore_unknown_options=True, **kwargs):
        """Create a Request object from a string containing a `cURL
        <https://curl.haxx.se/>`_ command. It populates the HTTP method, the
        URL, the headers, the cookies and the body. It accepts the same
        arguments as the :class:`Request` class, taking preference and
        overriding the values of the same arguments contained in the cURL
        command.

        Unrecognized options are ignored by default. To raise an error when
        finding unknown options call this method by passing
        ``ignore_unknown_options=False``.

        .. caution:: Using :meth:`from_curl` from :class:`~scrapy.http.Request`
                     subclasses, such as :class:`~scrapy.http.JSONRequest`, or
                     :class:`~scrapy.http.XmlRpcRequest`, as well as having
                     :ref:`downloader middlewares <topics-downloader-middleware>`
                     and
                     :ref:`spider middlewares <topics-spider-middleware>`
                     enabled, such as
                     :class:`~scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware`,
                     :class:`~scrapy.downloadermiddlewares.useragent.UserAgentMiddleware`,
                     or
                     :class:`~scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware`,
                     may modify the :class:`~scrapy.http.Request` object.

        To translate a cURL command into a Scrapy request,
        you may use `curl2scrapy <https://michael-shub.github.io/curl2scrapy/>`_.

       """
        request_kwargs = curl_to_request_kwargs(curl_command, ignore_unknown_options)
        request_kwargs.update(kwargs)
        return cls(**request_kwargs)

我们看init方法里面，第一个参数是url，这是我们熟悉的，后面还有一个参数是callback=None，这是一个回调函数，当我们想整个scrapy流程的时候，当我们的spider（爬虫程序）处理完了之后，通过爬虫中间件，假如你还有链接地址，这个链接地址又通过中间件给了引擎，由引擎再给调度器，调度器再给下载器，又走了这么一圈的流程。callback就是一个回调函数。怎么用呢，我们看这个代码：

next_href = response.xpath('//a[@]/@href').extract_first()
       if next_href:
           next_url = response.urljoin(next_href) # 补全url 补全 1 拼串 2 urljoin()
          #  request = scrapy.Request(next_url)
         #  yield request
         yield scrapy.Request(url=next_url,callback=self.parse
            )  # 后面加上了callback参数，调用了parse对象，就是把url又给了parse对象去处理。

我们把后两行的代码注释一下。后面是补全的代码。其实，后面的参数不加也可以，只不过加上逻辑看起来更清晰。我们在pipelines里面加两行代码“爬虫开始”，“爬虫结束”便于观察：

import json

class GswPipeline:
    def open_spider(self,spider):
        print('爬虫开始')
        self.fp = open('gsw02.txt','w',encoding='utf-8')  # 新建一个文本来验证结果

    def process_item(self, item, spider):
        item_json = json.dumps(dict(item),ensure_ascii=False)
        self.fp.write(item_json+'\n')

        return item
    def close_spider(self,spider):
        print('爬虫结束')
        self.fp.close()

我们start运行一下：

D:\Python38\python.exe D:/work/爬虫/Day19/my_code/Demo/gsw/gsw/spiders/start.py
爬虫开始
爬虫结束

Process finished with exit code 0

目录里出现了新建的文件夹：

除了callback，后面还有一个meta=None。上次我们的古诗文案例里，如果我们还需要点击详情页，进入查看诗文详情，那么如果我们要爬取详情页的内容，就需要向详情页发起请求，我们就需要一个详情页的url。下面我们先暂时放下，我们先讲另一个案例。

1. 腾讯招聘案例

https://careers.tencent/search.html这是腾讯官网的招聘平台。

我们要爬取的是工作岗位信息。下面同样要做一个翻页的处理。

按照以往的逻辑，我们先搞定一页，然后再做翻页处理。上一次，我们是通过生成scrapy.Request对象yield给引擎来处理的。这个案例我们该怎么做呢？如果我们右键检查翻页按钮的话得到的是这个东西：

这个再用原来的思路显然是行不通的，没有url。
我们多点击几页，找一下url的规律：

# https://careers.tencent/search.html 第一页
# https://careers.tencent/search.html?index=2 第二页
# https://careers.tencent/search.html?index=3 第三页
# https://careers.tencent/search.html?index=4 第四页

实际上index=1时就是第一页。不过我们还需要弄清楚，我们要的数据在不在数据源码中，如果不在，及时我们发起了请求，也得不到结果。于是我们右键网页，选择源码，我们Ctrl+F调出搜索栏，搜索一个页面上显示的岗位，比如：15583-手游3D场景设计师（深圳）

很遗憾，没有。而且我们看到，这个源码的数据很少。说明很多数据都是后来加载的。
如果嫌这个没有说服力，我们可以右键，检查，在第一个请求中查看response.Ctrl+F调出搜索：

我们输入了页面中的一个内容，却一个结果也没有发现。这证明，这些数据是动态数据。处理方法是两种方式。一，selenium。二，分析数据接口。直接在XHR里面去找。

我们发现了结果。
那既然数据不在第一个搜索结果里，我们就不能用上面的url作为起始url。而是在我们后面的XHR里面找到的那个“Query?timestamp。。。”里的url才可以作为起始url

我们把这个url地址复制下来：

Request URL: https://careers.tencent/tencentcareer/api/post/Query?timestamp=1613034362228&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn

我们再点开一页，找一下规律：

Request URL: https://careers.tencent/tencentcareer/api/post/Query?timestamp=1613035257107&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=2&pageSize=10&language=zh-cn&area=cn

我们很快发现了规律pageIndex=1的值在改变。只要动态替换这个值就可以了。好的，到此我们找到了。

2. 代码实现

创建项目：

D:\work\爬虫\Day20\my_code>scrapy startproject tencent
New Scrapy project 'tencent', using template directory 'd:\python38\lib\site-packages\scrapy\templates\project', created in:
    D:\work\爬虫\Day20\my_code\tencent

You can start your first spider with:
    cd tencent
    scrapy genspider example example

接下来：

cd tencent

D:\work\爬虫\Day20\my_code>cd tencent

D:\work\爬虫\Day20\my_code\tencent>

接下来我们创建一个爬虫项目：

D:\work\爬虫\Day20\my_code\tencent>scrapy genspider hr tencent
Created spider 'hr' using template 'basic' in module:
  tencent.spiders.hr

创建成功。

2.1 配置项目

我们双击一下hr项目，我们先把start_url改一下：

import scrapy


class HrSpider(scrapy.Spider):
    name = 'hr'
    allowed_domains = ['tencent']
    start_urls = ['https://careers.tencent/tencentcareer/api/post/Query?timestamp=1613034362228&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn
']

    def parse(self, response):
        pass

这样我们就可以拿到一个正确的response结果，我们进行解析就可以了。我们把拿到的字符串转成json数据：

import scrapy
import json

class HrSpider(scrapy.Spider):
    name = 'hr'
    allowed_domains = ['tencent']
    start_urls = ['https://careers.tencent/tencentcareer/api/post/Query?timestamp=1613034362228&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn']

    
    def parse(self, response):
        data = json.loads(response.text)
        print(data)

我们打开settings，加上LOG_LEVEL = ‘WARNING’
Robot = False
后面的headers打开，加上一个user-agent
然后再创建一个start文件

from scrapy import cmdline
cmdline.execute('scrapy crawl hr'.split())

我们直接start一下：

{'Code': 200, 'Data': {'Count': 8643, 'Posts': [{'Id': 0, 'PostId': '1316995743826845696', 'RecruitPostId': 67328, 'RecruitPostName': '33851-UE4海外项目技术支持工程师', 'CountryName': '中国', 'LocationName': '上海', 'BGName': 'IEG', 'ProductName': '', 'CategoryName': '技术', 'Responsibility': '参与管理中心与海外项目研发团队的技术相关沟通；\n与执行制作人紧密配合，与海外项目研发团队保持日常沟通，确保项目的技术层面工作健康推进，预警新产生的风险，协调内外部资源提供支持；\n做好海外项目研发团队阶段性提交版本和代码的整理工作，并提取能够横向分享的优秀内容，为各个研发团队提供更加全面的技术/系统/工具参考；\n参与建立管理中心独有的可共享资源库。', 'LastUpdateTime': '2021年02月12日', 'PostURL': 'http://careers.tencent/jobdesc.html?postId=1316995743826845696', 'SourceID': 1, 'IsCollect': False, 'IsValid': True}, {'Id': 0, 'PostId': '1328887379171221504', 'RecruitPostId': 68744, 'RecruitPostName': '17759-腾讯视频电商招商&供应链建设', 'CountryName': '中国', 'LocationName': '北京', 'BGName': 'PCG', 'ProductName': '', 'CategoryName': '产品', 'Responsibility': '主要负责公司直播带货BD品牌货品，搭建成熟的供应商体系； \n与商家沟通，商家异议处理，负责品牌的商务谈判和条款，维护好商家合作关系； \n确保直播前样品准备到位，完成相关流程等； \n配合供应相关部门的货品需求 ；\n可以根据商业化规则为节目定制特色商品并开发。\n', 'LastUpdateTime': '2021年02月12日', 'PostURL': 'http://careers.tencent/jobdesc.html?postId=1328887379171221504', 'SourceID': 1, 'IsCollect': False, 'IsValid': True}, {'Id': 0, 'PostId': '1328921972448436224', 'RecruitPostId': 68769, 'RecruitPostName': '17759-腾讯视频电商数据分析师', 'CountryName':

本文标签：爬虫腾讯详情页案例古诗文

版权声明：本文标题：爬虫(20)Scrapy知识补充+腾讯招聘案例+古诗文详情页+总结内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1727249167h1088698.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

爬虫(20)Scrapy知识补充+腾讯招聘案例+古诗文详情页+总结

文章目录

第十八章 腾讯招聘案例

1. 腾讯招聘案例

2. 代码实现

2.1 配置项目

更多相关文章

Python爬虫实战（01）—— Selenium及浏览器驱动安装教程

js逆向-腾讯滑块collect参数

Python下载腾讯视频（懂得都懂）

爬虫偶遇网站无法F12怎么办？

Python网络爬虫抓不到全部的html内容怎么办

tp-link路由器Portal功能典型配置案例

安全测试（四） Wi-Fi安全 渗透测试 网络安全 公共场的免费Wi-Fi真的安全吗？个人信息被监控窃听风险 如： ARP攻击 SSL攻击 DNS安全 加密方式等 枚举实战应用案例 信息窃听获取

松下相机碎片重组数据恢复案例之松下S1H格式化MOV视频恢复

腾讯绿标域名什么价格？怎么认证？

腾讯云轻量服务器如何部署项目

腾讯千帆河洛上新日事清、微伴、新榜、腾讯企点、纷享销客、聚合数据、NPSMeter

局部页面切换url为什么不变_python爬虫 - 翻页url不变网页的爬虫探究

腾讯云将网站从http转换成https

腾讯InstantMesh30秒图片生成3D模型；微软实时生成会说话的头像VASA；由 AI 创作的恶搞视频片段Sitcom Simulator

本地连接腾讯云MySQL数据库【获取外网地址和端口号】

淘宝京东商品长链接缩短为腾讯，新浪短链接的接口有哪些？

常见的公共 DNS 服务器地址有：谷歌 DNS：8.8.8.8 和 8.8.4.4阿里云 DNS：223.5.5.5 和 223.6.6.6腾讯 DNS：119.29.29.29 和 182.2

腾讯 爱奇艺服务器（网址）无法访问（打不开，没有网络）

使用腾讯乐固加固安卓APK

腾讯、百度、讯飞 语音识别

发表评论

推荐文章

word表格跨页后自动生成的顶部横线【去除方法】

英文G2P模块和标准

asp毕业设计——基于asp+access的在线考试系统设计与实现（毕业论文+程序源码）——在线考试系统

php控制台读取数据库信息,php

Windows命令创建用户，支持Windows Server或者Win10所有版本，可以在命令中实现自定义用户最全参数，自己运维经验，全部可用有效

热门文章

Windows驱动开发之获取系统时间

windows1011系统重装遇到的问题

Axure中推动拉动元件不生效_Axure教程：苹果手机拨号原型

hp380g8服务器装08系统,HP DL380 G8使用Intelligent Provisioning引导安装win 2008 x64

物业管理系统，优秀ssm框架，vue ,前后端分离。八大功能，业主管理，楼宇管理，房间管理，房号绑定，车位信息，缴费信息，报修信心，投诉管理。完整。扣扣137918925 做毕设】、学习都可以。想要私

Office 365基础功能介绍

Text2SQL论文

C++实现轻量级极简httpserver和httpclient(转)

极简springboot整合beelt、beeltsql和MySQL

Windows 12 网页版

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

零基础使用UltraISO制作并安装纯净Win10系统指南

苹果电脑windows系统换苹果系统

Win11系统崩溃错误修复指南：三种实用方法详解

如何封装一个自己的win7系统并安装到电脑做成双系统

如何在Excel 2019中开启数据分析工具？

第十八章腾讯招聘案例

安全测试（四） Wi-Fi安全渗透测试网络安全公共场的免费Wi-Fi真的安全吗？个人信息被监控窃听风险如： ARP攻击 SSL攻击 DNS安全加密方式等枚举实战应用案例信息窃听获取

腾讯爱奇艺服务器（网址）无法访问（打不开，没有网络）

腾讯、百度、讯飞语音识别