admin 管理员组

文章数量: 887016

我们以腾讯视频《天行九歌》为例,为大家细解析腾讯视频弹幕爬取的细节和难点。

写爬虫需要理清目标数据和网址的变化规律,随后再去解决细节的数据定位和抓取,往往事半功倍。

接下来先看看爬虫的一般步骤:

第一步:明确需求,确定需要抓取的字段

第二步:分析网站,寻找目标URL

第三步:分析目标URL参数,请求方式(get,post)

第四步:发起请求

1.设置请求头(User-Agent,Cookie,Host)

2.实例化一个Request对象(request.Request)

3.根据实例化的Request对象,使用request.get()或者post()方法发起请求

第五步:反爬与反反爬

1.基于headers的反爬:基于用户请求的headers反爬是最常见的反爬机制,在请求头headers中,包含很多键值对,服务器会根据这些键值对进行反爬。

2.基于用户行为的反爬:检测用户的行为是否正常,如访问频率

3.基于动态页面的反爬:使用动态网页,动态生成数据,或者动态加载,无法从源码直接查看数据

4.基于验证码的反爬:检测到异常访问可能会弹出验证码

5.基于加密的反爬:通过js来对数据进行加密或者通过css字体加密

第六步:处理响应结果

1.Ajax请求得到的一般是json数据,使用json模块处理,使用json.loads将json字符串,转为python数据类型

2.对于非结构化数据(数据在html页

本文标签: 腾讯 视频 实战 弹幕 python