首页技术总结正文内容

网络爬虫---用scrapy框架爬取腾讯新闻实战

技术总结

更新时间：2024-12-22 21:39:19 7

admin 管理员组

文章数量: 887017

用scrapy框架爬取腾讯新闻实战

文章目录

- 用scrapy框架爬取腾讯新闻实战
- - 一、知识要求
  - 二、爬取腾讯新闻实战
  - - 1.通过分析获取存放每个新闻链接的网址
    - 2.创建数据库来存放爬取的新闻标题和链接
    - 3.创建并编写一个爬取爬取腾讯新闻的scrapy项目
    - 4.运行项目

一、知识要求

掌握python基础语法
异常处理
会建立和简单使用scrapy框架
会抓包分析

二、爬取腾讯新闻实战

1.通过分析获取存放每个新闻链接的网址

（1）分析网页源代码中是否有新闻的链接：

通过分析，我们发现网页源代码中不含有新闻链接，但是，有很多js包，由此，我们自然的想到抓包分析。

（2）抓包分析：
①打开安装过代理的浏览器，我这里是火狐浏览器，然后进入到腾讯新闻首页
②打开抓包分析的工具Fiddler，然后用clear命令清空列表。如下：

③在火狐浏览器中刷新腾讯首页，Fiddler中会出现抓取一些数据包：

④通过看包分析，发现带有/irs/rcd?cid的js包含有新闻的链接和标题，所以我们的任务是要找到所有的这样的js包的网址:

④找出所有的这样的js包，复制其网址，找出规律：发现第一个js包和第二个js包的网址没有规律，从第三个js包开始就有规律了，有这样的规律：https://pacaio.match.qq/irs/rcd?cid=108&ext=&token=349ee24cdf9327a050ddad8c166bd3e3&page=6&callback=__jp9其中page=6是第4个js包，jp9总是比前面的page=的值大3，所以，我们通过构造page的值和jp的值，就可以构造出js包的网址。

2.创建数据库来存放爬取的新闻标题和链接

这里，我创建了一个名为tengxun的数据库，并在该数据库中建立了一张名为news的表：

3.创建并编写一个爬取爬取腾讯新闻的scrapy项目

（1）创建该爬虫项目和爬虫文件我就不多做说明了，如果不会可以点我，我创建的项目如下：

（2）编写爬虫项目：
①item.py文件：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy/en/latest/topics/items.html

import scrapy


class TengxunnewsItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()  # 设置标题容器
    link = scrapy.Field()   # 设置链接容器

②tx.py文件：

# -*- coding: utf-8 -*-
import scrapy
from tengxunnews.items import *
from scrapy.http import Request
import re


class TxSpider(scrapy.Spider):
    name = 'tx'
    allowed_domains = ['qq']    # 允许爬取的网址的域名
    # 第一次爬取的网址，虽然写出是两行，实际是一行，只是很长换成两行了
    start_urls = ['https://pacaio.match.qq/irs/rcd?cid=108&'
                  'ext=&token=349ee24cdf9327a050ddad8c166bd3e3&page=0&expIds=&callback=__jp1']
    # 来存放所有的js包地址
    allLink = ['https://pacaio.match.qq/irs/rcd?cid=108&ext=&token=349ee24cdf9327a050ddad8c166bd3e3&page=0&expIds=&callback=__jp1', 
               'https://pacaio.match.qq/irs/rcd?cid=4&token=9513f1a78a663e1d25b46a826f248c3c&ext=&page=0&expIds=&callback=__jp2']
    # 后面再爬取7个js文件，总共爬取9个js文件
    for i in range(0, 7):
        # 构造每个js文件的地址
        url = 'https://pacaio.match.qq/irs/rcd?cid=108&ext=&token=349ee24cdf9327a050ddad8c166bd3e3&page='+str(i+1)+'&callback=__jp'+str(i+4)
        allLink.append(url) # j将构造的js包网址追加到allLink列表中

    def parse(self, response):
        # 爬取每个js包的数据
        for link in self.allLink:
            yield Request(link, callback=self.next)

    def next(self, response):
        # 获取每个js包内存放的新闻标题和新闻链接
        item = TengxunnewsItem()
        data = response.body.decode("utf-8", "ignore")
        pat1 = '"title":"(.*?)"'
        pat2 = '"surl":"(.*?)"'
        item["title"] = repile(pat1).findall(data)
        item["link"] = repile(pat2).findall(data)
        yield item

③pipelines.py文件：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy/en/latest/topics/item-pipeline.html
import pymysql

class TengxunnewsPipeline(object):
    def __init__(self):
        # 链接数据库
        self.conn = pymysql.connect(host="127.0.0.1", user="root", passwd="wanghao211", db="tengxun")
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):
        for i in range(0, len(item["title"])):
            sql = "insert into news(title, link) values('{}', '{}')".format(item["title"][i], item["link"][i])
            # print(sql)
            # 将sql语句写入数据库
            try:
                self.cursor.execute(sql)
                self.connmit()
            except Exception as err:
                # 如果发生错误，立即回滚
                self.conn.rollback()
                # 并打印出错误
                print(err)
        print("信息写入数据库成功！")
        return item

    def close_spider(self, spider):
        # 关闭数据库
        self.cursor.close()
        self.conn.close()

4.运行项目

（1）运行项目：

（2）到数据库中查看结果：

写数据库入成功！！！
（3）复制第一个一个网址，进入：

与其标题相符合，确实就是该文章的链接。
（4）至此，实战成功！！！

本文标签：爬虫腾讯实战框架新闻

版权声明：本文标题：网络爬虫---用scrapy框架爬取腾讯新闻实战内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726441741h961307.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

网络爬虫---用scrapy框架爬取腾讯新闻实战

用scrapy框架爬取腾讯新闻实战

文章目录

一、知识要求

二、爬取腾讯新闻实战

1.通过分析获取存放每个新闻链接的网址

2.创建数据库来存放爬取的新闻标题和链接

3.创建并编写一个爬取爬取腾讯新闻的scrapy项目

4.运行项目

更多相关文章

《LabVIEW ZYNQ FPGA宝典》第5章-5.4：ZYNQ芯片内部的PS(ARM) Linux RT程序开发实战演示

U盘数据恢复实战指南：原因、方案与预防措施

对组件、模块、子系统、系统、框架、架构 定义浅析

Python爬虫之浏览器User-Agent大全

下载安装腾讯会议

腾讯云轻量服务器如何部署项目

【腾讯云Cloud Studio实战训练营】用Vue+Vite快速构建完成交互式3D小故事

解决腾讯云安装SSL证书后，服务器可以打开https,外网打不开的问题。

linux4.6内核,新闻

恶意代码分析实战 Lab 3-1 习题笔记

腾讯云总结

Python新闻网站项目-2.Scrapy爬虫的配置和数据抓取

ubuntu20.04通过SSH指令连接腾讯云服务器

狗日的系统之家下载的Windows 10 18031809系统不干净，捆绑自动安装腾讯关键等软件...

UE5+ChatGPT实现3D AI虚拟人综合实战

查看腾讯管家劫持，解决腾讯电脑管家劫持IE新建选项卡

腾讯优图|人脸3D重建与渲染技术研究与应用

腾讯优图提出LAP无监督多视角人脸3D重建算法，高清还原面部细节

腾讯云DNSPod 已全面支持 DNSSEC啦～内含D妹抽奖！

windows桌面客户端的UI框架

发表评论

推荐文章

计算机管理器为什么没有本地用户和组,windows7系统服务器管理器没有“本地用户和组”选项解决方法...

惠普电脑自动更新后，开机后，黑屏，只有一个鼠标 的恢复办法之一

u盘安装浪潮服务器_浪潮服务器NF5245m3重装系统|安装windows server2008 R2

腾达路由器设置成中继模式

Windows提权漏洞集合

热门文章

怎么一键安装win7系统,电脑一键安装win7系统

如何将照片从 iPhone 传输到 PC Windows 7891011？

oracle查询、扩展表空间大小

pycharm远程调试报错，运行正常

CTU搬运、货到人拣选！探秘“智能工厂”

【HNOI2007】bzoj1187 神奇游乐园

Windows一键重装系统失败：从问题分析到解决方案

电脑改完无线网密码怎么连接服务器,宽带密码改了无线路由器怎么设置上网

win10怎么打开无线网络服务器,win10系统打开无线网络服务的操作方法

Windows 11家庭版升级专业版全攻略

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

零基础使用UltraISO制作并安装纯净Win10系统指南

苹果电脑windows系统换苹果系统

Win11系统崩溃错误修复指南：三种实用方法详解

如何封装一个自己的win7系统并安装到电脑做成双系统

如何在Excel 2019中开启数据分析工具？

对组件、模块、子系统、系统、框架、架构定义浅析

惠普电脑自动更新后，开机后，黑屏，只有一个鼠标的恢复办法之一