admin 管理员组

文章数量: 887042


2024年2月27日发(作者:常见的软件编程语言)

HEBEINONGJI机电•教育•推广摘

要:大数据环境下,网络爬虫能自动获取网页信息,本文以当当网为例,对基于Python的网络爬虫技术进

行研究和分析。详细介绍数据的抓取、解析、持久化过程。关键词:大数据;网络爬虫;Python基于Python的网络爬虫技术四川水利职业技术学院随着互联网技术的快速发展和大数据时代的到来,网络数

赵文杰古荣龙丰富的针对网络协议的标准库,能简单高效地进行网页抓取、网页

解析、数据存储等,使程序员可以集中精力处理程序逻辑臨据呈爆炸式的发展,如何从海量的数据中快速高效地提取用户

感兴趣的Web信息,在大数据处理中面临着巨大的挑战。虽然目

前通过搜索引擎可以满足日常基本的需求,但对特定的内容不

3爬虫案例本文通过Python语言来实现一个简单的聚焦型爬虫,爬取

当当网上的图书信息,将图书的封面图片,图书书名、图书链接

能进行集中处理和可视化展示。另外,手动搜索的效率低,对数

据选取的时间成本较高。网络爬虫技术可以很好地解决这种问

页面保存在本地csv文件中。本文在Python3.6环境下调试完成。题,自行定制规则选取特定内容,可以让我们更精准地获取有效

该系统主要由三个方面构成。第一,Url管理器,负责提取网

络的url地址。第二,网页下载器,从网络上下载网站内容,获取

页面中详细信息;第三,页面解析器,针对网页下载器中的信息,

提取目标信息;第四,数据存储器,完成数据持久化。数据。同时网络爬虫可以根据网页内容进行深度和广度搜索,实

现自动化运行叭1爬虫技术网络爬虫,是按照设定的规贝泊动抓取网络信息的程序。网

具体实现过程如下:⑴打开当当网页面,搜索关键字“Python”,结果如图1所示。<

Q

O

ess

httpyrs«wch<7key=pytix>n4tKt«input&show

<

*

-

页中包含了文字信息、超链接信息。从功能上来讲,爬虫的处理

过程一般包括数据采集、处理、储存三个部分。在网络爬虫的系

统框架中,主过程由控制器、解析器、资源库三部分组成。控制器

的主要工作是负责给多线程中的各个爬虫线程分配工作任务。

为.蹄

r*习

W'1

pythoMM

P

88

□r...........

”"

■幵

刚I焙會扇

Appf mmnt

xnm

解析器的主要工作是下载网页,进行页面的处理,主要是将一些

JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理

掉,爬虫的基本工作由解析器完成。资源库用来存放下载到的网

页资源,一般都采用大型的数据库存储叫网络爬虫技术分为以下几类:通用网络爬虫、聚焦网络爬

虫、增量网络爬虫、深层网络爬虫叫这几种爬虫的关键技术是类

似的。爬虫获取网络数据的方式:模拟浏览器发送请求,获取网

页代码——提取有用数据,解析内容,保存数据。2

Python

简述Python是一种解释型、面向对象、动态数据类型的高级程序设

计语言。它是解释型语言,但是也可以编译成.pyc跨平台的字节码

文件。.pyc文件有几个好处:一是可以简单地隐藏源码,二是提高

载入速度,三是跨平台。相较于C++、Java语言,Python更易于学

习,有

V广泛的标准库。同时可以结合Java或C/C++语言,封装

成Python可以调用的扩展库,便于扩展和移植。Python提供了非常图1搜索结果图(2)分析源代码,可利用开发者工具查看每个数据对应的元

素及class名称,如图2所示。

clasff=,rspacer*>

ddt-area=5402556

ddt-exposeewoxfXdiv

id-

co)npanent_5402556,

>

clas^wspacerw>