首页编程日记正文内容

基于Python的网络爬虫技术

编程日记

更新时间：2024-12-23 17:16:52 9

admin 管理员组

文章数量: 887042

2024年2月27日发(作者：常见的软件编程语言)

HEBEINONGJI机电•教育•推广摘

要：大数据环境下，网络爬虫能自动获取网页信息，本文以当当网为例，对基于Python的网络爬虫技术进

行研究和分析。详细介绍数据的抓取、解析、持久化过程。关键词：大数据;网络爬虫；Python基于Python的网络爬虫技术四川水利职业技术学院随着互联网技术的快速发展和大数据时代的到来，网络数

赵文杰古荣龙丰富的针对网络协议的标准库,能简单高效地进行网页抓取、网页

解析、数据存储等，使程序员可以集中精力处理程序逻辑臨据呈爆炸式的发展，如何从海量的数据中快速高效地提取用户

感兴趣的Web信息，在大数据处理中面临着巨大的挑战。虽然目

前通过搜索引擎可以满足日常基本的需求，但对特定的内容不

3爬虫案例本文通过Python语言来实现一个简单的聚焦型爬虫，爬取

当当网上的图书信息，将图书的封面图片，图书书名、图书链接

能进行集中处理和可视化展示。另外，手动搜索的效率低，对数

据选取的时间成本较高。网络爬虫技术可以很好地解决这种问

页面保存在本地csv文件中。本文在Python3.6环境下调试完成。题，自行定制规则选取特定内容，可以让我们更精准地获取有效

该系统主要由三个方面构成。第一,Url管理器，负责提取网

络的url地址。第二，网页下载器，从网络上下载网站内容，获取

页面中详细信息;第三，页面解析器,针对网页下载器中的信息，

提取目标信息;第四，数据存储器，完成数据持久化。数据。同时网络爬虫可以根据网页内容进行深度和广度搜索，实

现自动化运行叭1爬虫技术网络爬虫，是按照设定的规贝泊动抓取网络信息的程序。网

具体实现过程如下：⑴打开当当网页面，搜索关键字“Python”,结果如图1所示。<

ess

httpyrs«wch<7key=pytix>n4tKt«input&show

•

页中包含了文字信息、超链接信息。从功能上来讲，爬虫的处理

过程一般包括数据采集、处理、储存三个部分。在网络爬虫的系

统框架中，主过程由控制器、解析器、资源库三部分组成。控制器

的主要工作是负责给多线程中的各个爬虫线程分配工作任务。

为.蹄

r*习

W'1

pythoMM

□r...........

™

”"

■幵

刚I焙會扇

Appf mmnt

xnm

解析器的主要工作是下载网页，进行页面的处理,主要是将一些

JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理

掉，爬虫的基本工作由解析器完成。资源库用来存放下载到的网

页资源，一般都采用大型的数据库存储叫网络爬虫技术分为以下几类：通用网络爬虫、聚焦网络爬

虫、增量网络爬虫、深层网络爬虫叫这几种爬虫的关键技术是类

似的。爬虫获取网络数据的方式:模拟浏览器发送请求，获取网

页代码——提取有用数据，解析内容,保存数据。2

Python

简述Python是一种解释型、面向对象、动态数据类型的高级程序设

计语言。它是解释型语言，但是也可以编译成.pyc跨平台的字节码

文件。.pyc文件有几个好处:一是可以简单地隐藏源码，二是提高

载入速度，三是跨平台。相较于C++、Java语言,Python更易于学

习，有

V广泛的标准库。同时可以结合Java或C/C++语言，封装

成Python可以调用的扩展库，便于扩展和移植。Python提供了非常图1搜索结果图（2）分析源代码,可利用开发者工具查看每个数据对应的元

素及class名称，如图2所示。

clasff=,rspacer*>

ddt-area=5402556

ddt-exposeewoxfXdiv

id-

co)npanent_5402556,

clas^wspacerw>

i占T2808”

class=wcon

search_wrap

clearfix"

namef=12815Xdiv

id=*

12810"

clas^*col

search_left*

najne=12817Xdiv

classs**

ddt-are牢94003212839

ddt-expose="on" name=jn940032_pid0_t

12839>

i*'camponent_940032*

class=ffcon

shoplist"

ddt-are牢94003212840

ddt-expose="on"

namepm940032_pid0_t

12840>

i(fcffsearch_nature_rg*

dlname="普通商品区t或"〉

cloth_shoplist*r

id=<,camponent_0_0__6612W>

ddtTpit=wlw
class=wlinelw
id=wp24103416">
Python科学计算基础教程"ddclick=*act=nomialResult_picture4ipos=24103416_0_l_q*
class="pic" name^,,ite]nlist-picturew
dd_nan&="单品图片"
href=*prodiict.
dangdang,
ccin/24103416.
htmlw
target=w_blank*
Xing
src='ht~tD：//img3ni6.
ddimg. cn/84/25/24103416-1
b
6.
ipg'
alt=*
Python科学计算基础教程，/>
clas严"price”
>
class=*price_nw>¥：
38.60
style=*color:
#878787
;text-decoration:none：*>定价：
clas^ffprice_rff>¥：49.00«span
clas》"price_s">7.
88折)
class="name"
namec"title"
>
titles*
lythan科学计尊基础教程"href=*product.
dangdang.
con/*
ddclidc=Hact=normalResult_title&pos=24103416_0_l_qw
name=*itejnlist-titlew
ddLname="单品标题"
target="_blank" >
class=wdccolor_ljgw>Python^i-学井算基础教程
>以数据为基础通过精彩案例展示Numpy奪禅学计算模块的强大功能和广泛虚用剖析Pytho朕于并行与
大数据计算的方法
clas沪"star"
Xspan
clas沪"level"
Xspan style=wwidth:
100%：">/24103416.
html?point=caiMnerrt_poiirt"
target^.blahk"
nam6=ffitenlist-review*
dd_namep"单品评适"ddclicks*act=click_review_courrt&pos=24103416_0_Lq*>251条评论
class=wempty,div"
>
class="nex_lable"
y=**>
class="tag_box">
class^shopJjuttorTXp
class=*bottojiLPwXa class=*
search_btn_cart，name='Buy' d4_name='加入购物车，href^
javascript:AddToShoppingCart
(24103416)
*
ddclick^
act=nonnalResult_addToCart&pos=24103416_(L1_Q* Xspan
class=‘
icon'
>加入购物车"aXa
clasL
search_btn_collect*
names：*
collect'
dd_name='加入收藏'i*"lcase24103416"
href="javascript:void(0):
”
name=*Sc”
ddclick=,
act=normalResult_favor&poff=24103416_0_l_q*
>收藏

«li>
ddt-pit=w2w
class=Tine2"
id="p25240981">
title«=w
Python
程序设计基础实战教程"ddclicl^*act=^onnalResult_pictureftpos=25240981_l_l_qw class=*pic*
name^itemlist-picture*
d(Lname="单品图片"
href^wproduct,
dangdang.
com/25240981.
htmlw
target=w_blank*
Xung
src='im£3nd.
ddimg.
cn/40/25/25240981-1
b
5.和£’
alt=f
Python
程序设计基础实战教程，/>
class=wpricew
>
class="price_n">4yen;22.5(K/span>
styledcolor:
#878787 itext-decorationmoneO定价：
class=*price_rw>¥：45.00«span
class=wprice_s*>5jf
class="name"
namee^title*
>
titles*
Python
程序设计基确实战教程"href="product,
/" ddcliclF=wact=nonna]Result_titleftpos=25240981_l_l_q*
name=*itemlist-title"
dd
name=w单品标题"target=*_blankw
>
class=">Python程序设计基础实战教程〈/a>
>结构精简，语言流爾，通过丰富的代码实何瓶示例，向读者慢慢渗透程序设讦的方法和思想。"p>
class="star"
Xspan
class=fflevel"
>«pan
styles"width:
100K："X/span>
href="product.
dangdang. com/?point=cojnnierrt_point"
target="_blank"
namep*ite]nlist-review/ir
dd_name="单
品评论”
ddclick=*act=click_review_count&pos=25240981_1_l_q*>33^评论
class=wejipty_divw>
classs"new_ldile”
y=ffW>
class=wshop_buttan*Xp
class="bottom_p">
class=*
search_btn_cart
'
nameF'Bqr'
dd_name(='加入购物车'href='javascript:AddToShoppingCart
(25240981)'
ddclick^
act=nonnalResult_addToCart&pos=25240981_l_l_q,
Xspan
class=*
icon*
>l)[l入购物车
clas^=,
search_btn_collect*
name=,
collect*
dd_name='加入收藏'ii="lcase25240981"
href=**javascript:void(0):*
nan&="Sc"
ddclicks* act=nonnalResult_favor&pos=2524098l_l_l_q*
>HJ?®
ddt-pit="3"
class="line3"
id="p25188978"〉
titlep*
Python数摒科学入门"ddclick=*act=normalResult_picture&pos=2518897^_2_l_q*
class=*pic*
namec"ite]nlist-picture"
dd_name="单品图片"
href=*product,
dangdang. ccin/2518897target=ff_blankw
>
src='ht*D：//ijngani8.
ddiatg.
cn/12/7/25188978T
b
3.
im'
alt=,
Python数据科学入门”
/X/aXp class="price"
>
<^)an
class="price_n">¥：38.50
style=wcolor:
#878787
itext-decorationmoneO定价：
class=,,price_r/,>¥：49.
00«span
class=wprice_s*>7.
86^
class="name"
namep"title"
>
titles*
Python数据科学入门”
href=*product.
dangdang.
con/*
ddclick=*act=normalResult_title&pos=25188978
2
1
q"
namef=witemlist-titlew
d(Lname="单品标题”
target="_blank" >
class=*>Python数振科学入门
class="search_hat_word"
>【图灵程序设计丛书】Python数据处喔诙潼峯握数据采集与清洗数据分析机器学习等数据科学领域常见
任务和工具用Python 轻松解决数据科学问S
class="star"
><雪an
class="level"
Xspan styles"width: KO；">"^an>
..........
...................................
图2商贾源義蓦作者简介:赵文杰,男,1982年出生，四川成都人，硕士，讲师，研究方向：软件开发、大数据。通讯作者：古荣龙，男，1990年出生，四川成都人,本科,助教，研究方向:软件开发。2020年第8期
阿玉衣祂
65
机电•教育•推广恒茅
HEBEINONGJIfile_name
=
,'⑶对网页进行解析，可以使用正则表达式、BeautifulSoup、
lxml等多种方式来解析网页，每种方法各有特色，使用时结合实
#指定编码为utf-8,避免写csv文件出现中文乱码with
(file_name,
'w1,〔uf8‘)as
csvfile:
filednames =
[r书名*,
*页面地址*,
*图片地址*]
际需要选择一种适合的解析方法。#导入程序需要的库import
twriter
= iter(csvfile,
fieldnames=filednames)
import
timeimport
csvimport
codecswriter.
writeheaderO
for
book
in
books:if
Ien(list(eii)[0].attrs)
== 3:from
bs4
import
BeautifulSoupimg
=
Iist(en)[0].attrs['data-original,]
else:#打开网页，输入关键字”python”#爬取地址,当当Python的书籍太多,我们只爬取前20页
img
=
list(en)[0].attrs['src*]try:ow({'书名
*:['tide'],
'
页面地址
^href],
*
图片地址
I
img})的信息url
=
'*/?key=python&act=input&s
how=big&page_index=
Hexcept
UnicodeEncodeError:prime编码错误，该数据无法写到文件中”)#请求头headers
=
{1
User-Agent1:
*Mozilla/5.0
(Windows
NT
6.1;
Win64;
x64)
4结语本文介绍了基于Python的网络爬虫技术的工作流程，以实
际案例演示了当当网数据的爬取过程。现在已经进入大数据时
AppleWebKit/537.36
(KHTML,
Kke
Gecko)
Chrome/56.0.2924.87
Safari/537.3&代，网络爬虫技术具有极高的实际应用价值，作为一种自动收集
数据的手段，在各行各业都有广泛的应用。同时也能为后续数据
}index
=
1处理擞据分析准备。while
index
<=
20:参考文献：[1]
钱程，阳小兰,朱福喜.基于Python的网络爬虫技术[}].黑龙
#发起请求request
=
t
(url=url+str
(index),
headers=headers)江科技信息,2016,36:273.[2]
郭丽蓉.基于Python的网络爬虫程序设计口电子技术与
response
=
n(request)index
=
index
+
1软件工程,2017,12:248-249.⑶魏程程.基于Python的数据信息爬虫技术[J]•电子世界,
2017,11:208-209.[4]彭智鑫.基于Python的深度网络爬虫的设计与实现出.信
#通过BeautifulSoup的find_all方法解析页面soup =
BeautifiilSoup(response)temps
=
_all(,a,,
class_='pic')global books息记录材料,2018,07: =
books
+
temps(4)数据持久化,将爬取的数据保留在本地。数据存储的方
式方法有多种，可以保留在普通文件中，如txt、csv等。也可以存
储在数据库中,如MySQLo本文将爬取到的数据写入csv文件，
结果如图3所示。代码如下：A B
闿书名
“
2
Python科学计算基础教程
3
Python
卡呈序咚1
十琴础实战教程
4
Python数据科学入门
5
机器人Python极客编申呈入门与实战
6
流畅的Python
(血子弟)
7
Python^础教程(第3版)
8
Pythoi谨础教*呈(第3臟)python数据科学导论
9|页商地见
|图片地址Chttp：//product, dangdang,
com/24003310.
hthttp：//iing3in0.
ddimg.
cn/67/4/24003310-l_b_5.
jpghttp：//product, dangdang,
com/25240981.
hthttp：//irog3m4. ddiing.
cn/42/36/23617284-l_b_2.
jpghttp：//product, dangdang,
com/25218035.
ht
ht
tp
：
//img3in5. ddiing.
cn/62/19/25218035-l_b_2.
jpghttp：//product, dangdang,
com/25123689.
ht
ht
tp
：
//iing3in8. ddiing.
cn/85/30/23961748-l_b_l
0.
jpjproduct, dangdang,
coin/23368089.
ht
ht
tp:
//img3m9. ddiing.
cn/30/36/23368089-l_b_2.
jpght
tp:
//product. dangdang,
coin/25286312.
ht
ht
tp:
//iing3in2. ddiing.
cn/29/31
/25286312-l_b_3.
jpgproduct,
dangdang.
com/25227022.
htimg3ro2. ddiing.
cn/40/15/25227022-l_b_l.
jpg1程序设计导论：Python语目实践(英文版)
http：//product,
dangdang.
coin/25251315.
htimg3m5.
ddiing.
cn/78/36/25251315-l_b_6.
jpgpython^B程入门
全3册
Python^®程从入门到实践
product,
dangdang.
com/2383402&
hthttp: //img3m6. ddiing.
cn/73/32/23834026-l_b_4.
jpg
从Python开始学錫程
http：//product,
dangdang.
coin/23839735.
htimg3m5.
ddiing.
cn/40/6/23839735-l_b_2.
jpgPython自动化运维：技术与最佳实践
http：//product,
dangdang.
com/25216230.
htimg3m0. ddiing.
cn/39/27/25216230-l_b_6.
jpg树莓派Pythor編程入门号实戯(第2臟)
http：//product,
dangdang.
com/25123327.
hthttp：//img3m7.
ddiing.
cn/97/31
/25123327-l_b_3.
jpgPython机器学匀(影印臟)
http：//product,
dangdang.
coin/25213411.
hthttp：//img3ml. ddiing.
cn/91
/20/25213411
~l_b_3.
jpgPython^OHDF
5大数据血庙
http：//product,
dangdang.
com/2518087&
htimg3m8. ddiing.
cn/30/10/25180878-l_b_3.
jpg图3保存在csv文件中的数据66
何轨夜祂
2020年第8期

本文标签：数据爬虫网络

版权声明：本文标题：基于Python的网络爬虫技术内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/free/1709044728h536784.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

基于Python的网络爬虫技术

更多相关文章

Linux 镜像文件ISO下载地址、centos网络配置：

Python爬虫之浏览器User-Agent大全

360服务器被劫持怎么修复,360浏览器网络劫持导致主页被改怎么办？360浏览器网络劫持导致主页被改的解决办法...

恢复数据的利器：易我数据恢复终身技术版v16.2.0.0

2021 Java后端+大数据暑期实习大厂面经

腾讯千帆河洛上新日事清、微伴、新榜、腾讯企点、纷享销客、聚合数据、NPSMeter

MAC电脑开热点手机连接后显示无网络问题解决办法

网络基础知识笔记

python拿到的数据怎么放到页面里_学会Python3模拟登录并爬取表格数据！excel高手也自叹不如！...

Python新闻网站项目-2.Scrapy爬虫的配置和数据抓取

同一局域网或同一Wifi网络中的Win10电脑共享文件夹和打印机

电脑硬盘坏了数据可以恢复吗？如何恢复硬盘数据？

win系统网络重置

windows 7 调整无线和有线网络的优先级

windows之DNS7种资源记录和flushdns命令清除DNS缓存以及nslookup解析域名和ipconfigall命令查看网络配置使用总结

如何让路由器分配固定网段(网络号)ip

Claude和ChatGPT到底选择谁？用真实数据对比

使用windows自带的网络命令工具抓包

win10 系统网络驱动出现黄色感叹号

mac 完全删除 docker volume_清理 OSX 系统中的 Docker 容器、镜像与数据卷

发表评论

推荐文章

wind 10家庭版系统激活

GetLastError 错误码大全（转载）

iOS ipa包瘦身，iOS8及以下text段超60MB

备份原ubuntu系统文件，自制U盘启动盘，重装ubuntu20.04系统，安装cuda显卡驱动，安装realsenseD435驱动。

macOS镜像下载(ISO、DMG)

热门文章

java开发桌面应用_Electron7+VueCli4开发跨平台桌面应用

PHP网页游戏学习之Xnova(ogame)源码解读

【ACL 2021】《 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations》

KVM虚拟机硬盘压缩

C 和C++ 的标准

windows系统一键还原按哪个键

解决windows下命令行不识别 ping ipconfig net 等命令的问题

如何创建密钥管理服务 (KMS) 激活主机

Windows 操作系统下打开GodMode【上帝模式】的几种方式

批量激活管理工具VAMT 3.0的安装与基本使用方法简介

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Deepin操作系统安装及系统相关设置

华为MateBook E Go Wi-Fi性能版(GK-W78、GK-W76)工厂模式win11原厂系统包,含F10智能恢复功能

【PC工具】win10关闭自带杀毒软件，win10关闭安全软件方法

Windows Server Backup裸机恢复（WM虚拟机）

修复苹果手机黑屏死机的9种方法