admin 管理员组

文章数量: 887021

为了尽快上手Python爬虫,让它能够在我做毕业研究时发挥挖掘数据的作用,接下来的练习案例,我会选取一些与我自身所学专业较为相关的内容。我的专业是新闻传播,因此,与传播现象、传播效果等相关的一些信息我都比较感兴趣,接下来的这个案例学习自CSDN博主韩国麦当劳的博文《Python爬虫实战(一):腾讯新闻的较真查证平台,抓取疫情谣言数据》,其中涉及到的知识点还包括json数据的提取与保存,之前没有接触过,正好借这个案例了解练习。

说明:爬虫练习仅为学习,不做商用,如有侵权,烦请联系删除!

练习2:使用requests库爬取腾讯新闻较真平台辟谣数据

信息平台:较真查证平台_腾讯新闻查真假,上较真。较真平台是全网专业、及时的事实查证平台,与众多专业机构展开合作,每一条辟谣科普内容都经过严格的查证流程。除了阅读辟谣信息之外,还可以搜索和提问。目前较真已为超过10亿人次的用户提供了个性化辟谣查证服务。https://vp.fact.qq/home

爬取目标:抓取该平台发布的辟谣信息并将相关数据以表格形式下载保存至本地

相关库名:requests/json/csv/time

目录

1.解析目标网站规则 

2.设计代码

3.执行结果

1.解析目标网站规则 

首先打开腾讯新闻较真查证平台,并点击鼠标右键选择“检查”打开开发者模式,刷新左边的较真平台页面后可以看到Network(即网络)一栏会显示页面元素相关的请求URL信息源,如下图框红内容所示:

此时页面显示的辟谣新闻仅有几条,要想获得更多的数据,我们需要找到网页请求更多数据的Request URL,拉住较真平台页面向下滑动的滚动条,发现能够加载出更多的辟谣信息,下拉的同时右边的请求URL信息源也同步更新,此时就出现了一个名为“loadmore?”的请求URL,对应的Request URL为:

本文标签: 爬虫 腾讯 较真 案例 数据