首页技术总结正文内容

Python爬虫实战(一)：腾讯新闻的较真查证平台，抓取疫情谣言数据

技术总结

更新时间：2024-12-22 22:21:11 8

admin 管理员组

文章数量: 887019

追风赶月莫停留，平芜尽处是春山。

文章目录

追风赶月莫停留，平芜尽处是春山。
一、网页分析
- 二、接口分析
- - url分析
  - 返回数据分析
- 三、编写代码
- - 完整代码

2021.7.14更新：浏览器标识使用 Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0也就是火狐浏览器内核的，我发现用chrome已经加载不出新的一页了。文中的代码已经更新了。

一、网页分析

打开网址较真查证平台

打开开发者模式，刷新网页，往下翻看的时候注意到刷新出来了一个请求 URL

请求到的数据是

正好能够和网页中的内容对应起来。

其中还包含标题、言论的真实性、时间、查证的要点以及查证者。

二、接口分析

url分析

https://vp.fact.qq/loadmore?artnum=0&token=U2FsdGVkX19IPDkKITF2xCZa%252FxETYaJM%252BPz7pppjc5ZVBjEbahmQ%252F33hOL42W%252BAN&page=1&stopic=&_=1619407484449&callback=jsonp1

我们可以很容易的发现page=1是表示页数，去验证一下发现当page=0的时候其实返回的是第一页的数据。
token=U2FsdGVkX19IPDkKITF2xCZa%252FxETYaJM%252BPz7pppjc5ZVBjEbahmQ%252F33hOL42W%252BAN,这个就是网站设置的Session。其实这个让他保持不变就行，失效了再换
stopic=&_=1619407484449，看到后面的13位数字第一反应是时间戳，而且还是毫秒级别的时间戳，事实便是如此。

返回数据分析

虽然显示的返回数据类型是text类型，但是看这浏览的格式总感觉像是JSON格式的

发现返回的数据是jsonp1(json_data)这种格式的，所以咱们只要把jsonp1()去掉然后提取中间的内容就可以格式化为json数据了

三、编写代码

知道了url规则，以及返回数据的格式，那现在咱们的任务就是构造url然后请求数据
我们可以设置两个变量page, timestamp代表页数和时间戳
page改变很简单，用for循环直接循环就OK

for page in range(0, 100):

timestamp的话就要借助time库来生成

timestamp = int(time.time()*1000)

现在来构造url：

url = "https://vp.fact.qq/loadmore?artnum=0&token=U2FsdGVkX19IPDkKITF2xCZa%252FxETYaJM%252BPz7pppjc5ZVBjEbahmQ%252F33hOL42W%252BAN&page={}&stopic=&_={}&callback=jsonp1".format(page, timestamp)

接下来生成前100页的url：

for page in range(0, 100):
    timestamp = int(time.time()*1000)
    url = "https://vp.fact.qq/loadmore?artnum=0&token=U2FsdGVkX19IPDkKITF2xCZa%252FxETYaJM%252BPz7pppjc5ZVBjEbahmQ%252F33hOL42W%252BAN&page={}&stopic=&_={}&callback=jsonp1".format(page, timestamp)

对于每个url我们都要去用requests库中的get方法去请求数据：
所以我们为了方便就把请求网页的代码写成了函数get_html(url)，传入的参数是url返回的是请求到的内容。

def get_html(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
    }
    response = requests.get(url, headers=headers)
    response.encoding = response.apparent_encoding
    time.sleep(3)	# 加上3s 的延时防止被反爬
    return response.text

现在我们用到的requests.get()只传入了两个参数url, headers，其实还有更多参数，请读者自行百度。
这个网站只需要这两个参数就足够了。
传入headers目的是为了模拟浏览器进行访问，防止被反爬。

可以在这里找到headers 的相关信息，我们现在只需要其中的user-agent就足够了。

上文说到返回的数据其实是个伪json格式的数据，我们做一下处理就能变成json格式的数据

for page in range(0, 100):
    timestamp = int(time.time()*1000)
    url = "https://vp.fact.qq/loadmore?artnum=0&token=U2FsdGVkX19IPDkKITF2xCZa%252FxETYaJM%252BPz7pppjc5ZVBjEbahmQ%252F33hOL42W%252BAN&page={}&stopic=&_={}&callback=jsonp1".format(page, timestamp)
	html = get_html(url)	# 此时html里面存的是伪json格式的数据
    html = html[7:-1]	# 用字符串提取提取出来中间的json格式的内容

我们使用json库来格式化数据使其更方便我们后续的提取

response = json.loads(html)

到此，数据处理部分就完成了，下一步就是数据提取了。

我们发现数据都在content标签下，所以我们用

response = response['content']

来提取列表里数据，此时response是一个列表类型的数据
那我们就来遍历这个列表提取所需要的数据并存到一个字典中

for i in response:
	data = {}
	data['explain'] = i['explain']
	data['title'] = i['title']
	data['date'] = i['date']
	data['result'] = i['result']
	data['author'] = i['author']
	data['abstract'] = i['abstract']

那接下来就是保存了，我也写了个函数save_data(data)传入的是字典类型的数据

def save_data(data):
    title = ["title", "date", "explain", "result", "author", "abstract"]
    with open("疫情谣言数据.csv", "a", encoding="utf-8", newline="")as fi:
        fi = csv.writer(fi)		# 引入csv库
        fi.writerow([data[i] for i in title])	# 写入文件

提取完数据然后调用保存函数就OK了

for i in response:
    data = {}
    data['explain'] = i['explain']
    data['title'] = i['title']
    data['date'] = i['date']
    data['result'] = i['result']
    data['author'] = i['author']
    data['abstract'] = i['abstract']
    save_data(data)

完整代码

# -*- coding:utf-8 -*-
# @time: 2021/4/26 11:05
# @Author: pioneer
# @Environment: Python 3.7
import json
import requests
import csv
import time


def get_html(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
    }
    response = requests.get(url, headers=headers)
    response.encoding = response.apparent_encoding  # 自动识别并设置编码
    time.sleep(3)   # 加入3s延时，防止被反爬
    return response.text


def save_data(data):
    title = ["title", "date", "explain", "result", "author", "abstract"]
    with open("疫情谣言数据.csv", "a", encoding="utf-8", newline="")as fi:
        fi = csv.writer(fi)     # 导入csv库
        fi.writerow([data[i] for i in title])   # 写入文件


def get_data():
    for page in range(0, 100):
    	print(page)
        timestamp = int(time.time()*1000)
        url = "https://vp.fact.qq/loadmore?artnum=0&token=U2FsdGVkX19IPDkKITF2xCZa%252FxETYaJM%252BPz7pppjc5ZVBjEbahmQ%252F33hOL42W%252BAN&page={}&stopic=&_={}&callback=jsonp1".format(page, timestamp)
        html = get_html(url)    # 此时html里面存的是伪json格式的数据
        html = html[7:-1]   # 用字符串提取提取出来中间的json格式的内容
        response = json.loads(html)
        response = response['content']  # 提取数据列表
        for i in response:
            data = {}
            data['explain'] = i['explain']
            data['title'] = i['title']
            data['date'] = i['date']
            data['result'] = i['result']
            data['author'] = i['author']
            data['abstract'] = i['abstract']
            save_data(data)


if __name__ == '__main__':
    get_data()

得到的部分数据截图

欢迎一键三连哦！
还想看哪个网站的爬虫？欢迎留言，说不定下次要分析的就是你想要看的！

本文标签：爬虫腾讯较真疫情谣言

版权声明：本文标题：Python爬虫实战(一)：腾讯新闻的较真查证平台，抓取疫情谣言数据内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1727248783h1088636.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

Python爬虫实战(一)：腾讯新闻的较真查证平台，抓取疫情谣言数据

追风赶月莫停留，平芜尽处是春山。

文章目录

一、网页分析

二、接口分析

url分析

返回数据分析

三、编写代码

完整代码

更多相关文章

基于Java+Springboot+Vue+elememt社区疫情防控系统设计和实现

爬虫遇到用时间戳作为翻页参数的网站怎么办

js逆向-腾讯滑块collect参数

腾讯轻量云linux系统dd安装windows

Python下载腾讯视频（懂得都懂）

腾讯云服务器Windows系统安装宝塔面板配置建站环境

用 ChatGPT 网页爬虫发现隐藏的网络数据

ChatGPT和爬虫组合在一起能做什么？

基于ChatGPT等大模型快速爬虫提取网页内容

记录在编写ChatGPT爬虫网页时的问题

小白用chatgpt编写python 爬虫程序代码 抓取网页数据(js动态生成网页元素)

Kali 安装之腾讯云经验遇到坑

下载安装腾讯会议

Python网络爬虫——爬取小视频网站源视频！自己偷偷看哦！

解决腾讯云安装SSL证书后，服务器可以打开https,外网打不开的问题。

腾讯千帆河洛上新日事清、微伴、新榜、腾讯企点、纷享销客、聚合数据、NPSMeter

阿里源 华为源 腾讯源 网易源 清华源

OpenAI 推出新网络爬虫GPTBot，为GPT-5做准备

以腾讯云为例，使用宝塔搭建一个骚气的导航网站

【云服务器软件部署】腾讯云服务器Linux快速部署JDK、Tomcat、MySQL、Redis、Nginx、Zookeeper等（速成版）

发表评论

推荐文章

IntelliJ IDEA如何运行单个程序 且不报其他程序的错误

美国的车库文化

台式机如何重装Windows7系统(台式机要怎么重装系统Windows7)

IntelliJ IDEA 2018.2（Ultimate Edition）激活方法

mongodb的windows安装与Navicat连接

热门文章

惠普HP ProBook 笔记本U盘启动安装 Linux Ubuntu 时报错内存不足（error: out of memory）解决记录（内核DMA保护）

java计算机毕业设计高校会议室预约系统源码+mysql数据库+系统+lw文档+部署

【解决】sudo apt

知识图谱构建7——基于REFO的简单知识问答（KBQA）

技术人攻略访谈二十：智能家居行业破局者

不同Windows系统版本下DNS超时重试时间

Manjaro U盘安装系统制作指南

【从Windows上传文件到Linux】

WPS 卸载后图标被篡改以及 WPS卸载干净步骤

π0——用于通用机器人控制的VLA模型：一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

苹果电脑windows系统换苹果系统

Win11系统崩溃错误修复指南：三种实用方法详解

小白用chatgpt编写python 爬虫程序代码抓取网页数据(js动态生成网页元素)

阿里源华为源腾讯源网易源清华源

IntelliJ IDEA如何运行单个程序且不报其他程序的错误