首页技术总结正文内容

入门级小白超实用的python爬虫爬取网页图片

技术总结

更新时间：2024-12-22 21:49:29 5

admin 管理员组

文章数量: 887017

图像作为信息传播的重要载体，在日常生活和各行各业的应用越来越广泛。网络图片爬取成为了数据挖掘和分析领域的一项重要技术。本文将探讨在网络环境中爬取图片的实现步骤以及代码。

效果展示

代码运行后，输入关健字

等待片刻后桌面会自动创建一个名为picture的文件夹随后开始爬取数据，

等到爬取的数据足够是，可以自行停止代码的运行，随后查看爬取的图片，根据关键字在picture中创建子文件夹，不同的图片则会在相应的文件夹中。

这里我们进入小狗的文件夹查看网页爬取的照片

准备阶段

环境配置

首先，您需要确保您的计算机上安装了Python以及必要的库。这里假设您已经安装了Python 3.x。我这里使用的坂本为3.11。想要在终端运行的同学也可以自己去系统那里配置环境变量。

安装Python

如果您还没有安装Python，可以从官网下载安装包：

https://www.python/

根据您的操作系统选择合适的版本进行下载和安装。安装过程中请注意勾选“Add Python to PATH”选项，以便在命令行中直接使用Python。

安装必要的库

接下来，您需要安装几个库：requests, beautifulsoup4 和 lxml。这些库可以通过pip安装。打开命令提示符或终端(cmd或者直接到)，然后输入以下命令：

pip install requests beautifulsoup4 lxml

这将安装用于发送HTTP请求的requests库，用于解析HTML文档的beautifulsoup4 库及其解析器lxml。

创建Python文件

打开一个文本编辑器或者IDE（如VSCode、PyCharm等），这里我使用的是PyCharm。首先新建一个Python文件，比如命名为baidu_image_crawler.py。

编写爬虫代码：

导入模块

import os
import requests
import urllib.parse
from bs4 import BeautifulSoup
import re

这部分代码导入了必要的模块：

os：用于处理文件路径。
requests：用于发送HTTP请求。
urllib.parse：用于URL编码。
BeautifulSoup：用于解析HTML文档。
re：用于正则表达式匹配。

全局变量初始化

ImageCount = 0

这里定义了一个全局变量ImageCount，用来记录下载的图片数量。

定义函数 GetPageURL

def GetPageURL(URLStr):
    # 获取一个页面的所有图片的URL+下页的URL
    if not URLStr:
        print('现在是最后一页啦！爬取结束')
        return [], ''
    try:
        header = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36"
        }
        response = requests.get(URLStr, headers=header)
        response.encoding = 'utf-8'
        html = response.text
    except Exception as e:
        print("err=", str(e))
        return [], ''

    # 使用正则表达式提取图片URL
    ImageURL = re.findall(r'"objURL":"(.*?)",', html, re.S)

    # 使用BeautifulSoup解析HTML，提取下一页的URL
    soup = BeautifulSoup(html, 'html.parser')
    NextPageURLS = soup.find('a', class_='n', text='下一页')
    if NextPageURLS:
        NextPageURL = 'http://image.baidu' + NextPageURLS['href']
    else:
        NextPageURL = ''

    return ImageURL, NextPageURL

此函数用于获取一个页面中的所有图片URL以及下一页的链接。具体步骤如下：

发送GET请求到指定URL。
解析返回的HTML，提取图片URL和下一页链接。

定义函数 DownLoadImage

def DownLoadImage(pic_urls, ImageFilePath):
    """给出图片链接列表, 下载所有图片"""
    global ImageCount
    for i, pic_url in enumerate(pic_urls):
        try:
            pic = requests.get(pic_url, timeout=15)
            ImageCount += 1
            string = os.path.join(ImageFilePath, f"{ImageCount}.jpg")
            with open(string, 'wb') as f:
                f.write(pic.content)
                print(f'已下载第{ImageCount}张图片: {pic_url}')
        except Exception as e:
            print(f'下载第{ImageCount}张图片失败: {e}')
            ImageCount -= 1
            continue

这是主爬虫函数，接受一个关键词参数，负责整个爬取流程。主要工作包括：

获取用户的桌面路径，并创建保存图片的目录。
创建以关键词命名的子文件夹。
初始化爬取标志和起始URL。
循环获取图片URL并下载图片，直到没有下一页为止。

定义函数 CreateDirectory

def CreateDirectory(path):
    """创建目录，如果不存在的话"""
    if not os.path.exists(path):
        os.makedirs(path)

此函数检查给定路径是否存在，如果不存在则创建该目录。

定义函数 CrawlPicture

def CrawlPicture(keyword):

    # 获取用户的桌面路径，并创建保存图片的目录
    desktop_path = os.path.join(os.path.expanduser("~"), 'Desktop')
    picture_path = os.path.join(desktop_path, 'picture')
    CreateDirectory(picture_path)

    # 创建以关键字命名的子文件夹
    keyword_path = os.path.join(picture_path, keyword)
    CreateDirectory(keyword_path)

    # 初始化爬取标志
    CrawlFlag = True
    NextPageURL = f"https://image.baidu/search/flip?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word={urllib.parse.quote(keyword, safe='/')}"

    while CrawlFlag:
        ImageURL, NextPageURL = GetPageURL(NextPageURL)
        if ImageURL:
            DownLoadImage(list(set(ImageURL)), keyword_path)
        if not NextPageURL:
            CrawlFlag = False

这是主爬虫函数，接受一个关键词参数，负责整个爬取流程。主要工作包括：

获取用户的桌面路径，并创建保存图片的目录。
创建以关键词命名的子文件夹。
初始化爬取标志和起始URL。
循环获取图片URL并下载图片，直到没有下一页为止。

主函数

if __name__ == '__main__':
    keyword = input("请输入要爬取的关键词: ")
    CrawlPicture(keyword)

这是程序的入口点，当直接运行该脚本时执行。它从用户那里获取一个关键词，然后启动爬虫。

这段代码实现了一个基本的爬虫，能够根据用户输入的关键词爬取百度图片搜索的结果，并将图片保存到用户的桌面上的一个特定目录里。

本文标签：爬虫入门级网页图片 python

版权声明：本文标题：入门级小白超实用的python爬虫爬取网页图片内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726435997h960232.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

入门级小白超实用的python爬虫爬取网页图片

效果展示

准备阶段

环境配置

安装Python

安装必要的库

创建Python文件

编写爬虫代码：

导入模块

全局变量初始化

定义函数 GetPageURL

定义函数 DownLoadImage

定义函数 CreateDirectory

定义函数 CrawlPicture

主函数

更多相关文章

Python Webdriver 重新使用已经打开的浏览器实例_java webdriver使用已打开过的chrome(1)

python网页打不开_Python请求库有时无法打开浏览器可以打开的网站

python卸载与安装配置（小白快速入门）

Windows10下安装Python+OpenCV

大模型：Python调用chatgpt的三种方法

win10上使用pyinstaller工具打包python后在win7无法运行（运行报错）

windows7计算机图片,win7照片查看器无法显示图片计算机可用内存不足 需要技巧...

Python｜Windows 系统安装 triton 的方法

qt界面和python怎么交互_Python GUI界面编程-初识

【Scrapy爬虫框架】：快速掌握 scrapy 爬虫框架以及了解原理

Mac系统下Python下载安装

Windows 7上可以上QQ，无法访问网页的DNS解析的解决

edge不能打开html网页,Win10系统edge浏览器无法打开网页的解决方法

Windows开机自动运行Chrome并全屏和打开指定网页和网站

计算机 - - - 浏览器网页打开本地exe程序，网页打开微信，网页打开迅雷

windows 下配置python WSGI

win7 打开图片提示内存不足

【Ubuntu 22.04】VMware 17 安装Ubuntu 22.04+配置VSCode+Python开发环境

OpenAI全面开放免费可用的Canvas？支持文章、代码、图片协作

Windows照片查看器无法显示此图片，因为计算机上的可用内存可能不足。Win7图片打不开 提示内存不足

发表评论

推荐文章

联想电脑如何激活windows系统

Linux系统下下载Tomcat详细步骤。

Llinux初学记录（二）——文本编辑工具VIM

在U盘中安装linux双系统

在windows系统上安装Hadoop

热门文章

Windows字符编码集大全

Word设置每页不同的页眉修改或去掉页眉横线页眉标题在横线上下方的设置

不用u盘如何装win10，不用u盘装win10步骤

faster rcnn源码解析1

@Scheduled(cron = ““)cron参数的用法，场景示例

河海计算机考研报名人数为什么越来越多,【2018考研心路历程】我为什么考河海大学会计硕士...

源码搭建B2B2C体系电商多级分销商城，小程序、H5

Windows 自带计算器的使用

Windows下C++开机启动代码实现 [转]

CentOs 7 下修改 Windows 默认启动顺序

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

零基础使用UltraISO制作并安装纯净Win10系统指南

苹果电脑windows系统换苹果系统

Win11系统崩溃错误修复指南：三种实用方法详解

如何封装一个自己的win7系统并安装到电脑做成双系统

如何在Excel 2019中开启数据分析工具？

windows7计算机图片,win7照片查看器无法显示图片计算机可用内存不足需要技巧...

Windows照片查看器无法显示此图片，因为计算机上的可用内存可能不足。Win7图片打不开提示内存不足