..........
...................................
图2商贾源義蓦作者简介:赵文杰,男,1982年出生,四川成都人,硕士,讲师,研究方向:软件开发、大数据。通讯作者:古荣龙,男,1990年出生,四川成都人,本科,助教,研究方向:软件开发。2020年第8期
阿玉衣祂
65
机电•教育•推广恒茅
HEBEINONGJIfile_name
=
,'⑶对网页进行解析,可以使用正则表达式、BeautifulSoup、
lxml等多种方式来解析网页,每种方法各有特色,使用时结合实
#指定编码为utf-8,避免写csv文件出现中文乱码with
(file_name,
'w1,〔uf8‘)as
csvfile:
filednames =
[r书名*,
*页面地址*,
*图片地址*]
际需要选择一种适合的解析方法。#导入程序需要的库import
twriter
= iter(csvfile,
fieldnames=filednames)
import
timeimport
csvimport
codecswriter.
writeheaderO
for
book
in
books:if
Ien(list(eii)[0].attrs)
== 3:from
bs4
import
BeautifulSoupimg
=
Iist(en)[0].attrs['data-original,]
else:#打开网页,输入关键字”python”#爬取地址,当当Python的书籍太多,我们只爬取前20页
img
=
list(en)[0].attrs['src*]try:ow({'书名
*:['tide'],
'
页面地址
^href],
*
图片地址
I
img})的信息url
=
'*/?key=python&act=input&s
how=big&page_index=
Hexcept
UnicodeEncodeError:prime编码错误,该数据无法写到文件中”)#请求头headers
=
{1
User-Agent1:
*Mozilla/5.0
(Windows
NT
6.1;
Win64;
x64)
4结语本文介绍了基于Python的网络爬虫技术的工作流程,以实
际案例演示了当当网数据的爬取过程。现在已经进入大数据时
AppleWebKit/537.36
(KHTML,
Kke
Gecko)
Chrome/56.0.2924.87
Safari/537.3&代,网络爬虫技术具有极高的实际应用价值,作为一种自动收集
数据的手段,在各行各业都有广泛的应用。同时也能为后续数据
}index
=
1处理擞据分析准备。while
index
<=
20:参考文献:[1]
钱程,阳小兰,朱福喜.基于Python的网络爬虫技术[}].黑龙
#发起请求request
=
t
(url=url+str
(index),
headers=headers)江科技信息,2016,36:273.[2]
郭丽蓉.基于Python的网络爬虫程序设计口电子技术与
response
=
n(request)index
=
index
+
1软件工程,2017,12:248-249.⑶魏程程.基于Python的数据信息爬虫技术[J]•电子世界,
2017,11:208-209.[4]彭智鑫.基于Python的深度网络爬虫的设计与实现出.信
#通过BeautifulSoup的find_all方法解析页面soup =
BeautifiilSoup(response)temps
=
_all(,a,,
class_='pic')global books息记录材料,2018,07: =
books
+
temps(4)数据持久化,将爬取的数据保留在本地。数据存储的方
式方法有多种,可以保留在普通文件中,如txt、csv等。也可以存
储在数据库中,如MySQLo本文将爬取到的数据写入csv文件,
结果如图3所示。代码如下:A B
闿书名
“
2
Python科学计算基础教程
3
Python
卡呈序咚1
十琴础实战教程
4
Python数据科学入门
5
机器人Python极客编申呈入门与实战
6
流畅的Python
(血子弟)
7
Python^础教程(第3版)
8
Pythoi谨础教*呈(第3臟)python数据科学导论
9|页商地见
|图片地址Chttp://product, dangdang,
com/24003310.
hthttp://iing3in0.
ddimg.
cn/67/4/24003310-l_b_5.
jpghttp://product, dangdang,
com/25240981.
hthttp://irog3m4. ddiing.
cn/42/36/23617284-l_b_2.
jpghttp://product, dangdang,
com/25218035.
ht
ht
tp
:
//img3in5. ddiing.
cn/62/19/25218035-l_b_2.
jpghttp://product, dangdang,
com/25123689.
ht
ht
tp
:
//iing3in8. ddiing.
cn/85/30/23961748-l_b_l
0.
jpjproduct, dangdang,
coin/23368089.
ht
ht
tp:
//img3m9. ddiing.
cn/30/36/23368089-l_b_2.
jpght
tp:
//product. dangdang,
coin/25286312.
ht
ht
tp:
//iing3in2. ddiing.
cn/29/31
/25286312-l_b_3.
jpgproduct,
dangdang.
com/25227022.
htimg3ro2. ddiing.
cn/40/15/25227022-l_b_l.
jpg1程序设计导论:Python语目实践(英文版)
http://product,
dangdang.
coin/25251315.
htimg3m5.
ddiing.
cn/78/36/25251315-l_b_6.
jpgpython^B程入门
全3册
Python^®程从入门到实践
product,
dangdang.
com/2383402&
hthttp: //img3m6. ddiing.
cn/73/32/23834026-l_b_4.
jpg
从Python开始学錫程
http://product,
dangdang.
coin/23839735.
htimg3m5.
ddiing.
cn/40/6/23839735-l_b_2.
jpgPython自动化运维:技术与最佳实践
http://product,
dangdang.
com/25216230.
htimg3m0. ddiing.
cn/39/27/25216230-l_b_6.
jpg树莓派Pythor編程入门号实戯(第2臟)
http://product,
dangdang.
com/25123327.
hthttp://img3m7.
ddiing.
cn/97/31
/25123327-l_b_3.
jpgPython机器学匀(影印臟)
http://product,
dangdang.
coin/25213411.
hthttp://img3ml. ddiing.
cn/91
/20/25213411
~l_b_3.
jpgPython^OHDF
5大数据血庙
http://product,
dangdang.
com/2518087&
htimg3m8. ddiing.
cn/30/10/25180878-l_b_3.
jpg图3保存在csv文件中的数据66
何轨夜祂
2020年第8期
发表评论