首页技术总结正文内容

现在还不会爬虫？

技术总结

更新时间：2024-12-26 08:51:23 5

admin 管理员组

文章数量: 887629

使用 Python 进行数据爬虫通常包括以下步骤，下面的代码以一个爬取简单网页信息（比如书籍标题和价格）的例子来说明整个步骤，如果还是看不明白那一定是没有看🎈基石篇🎈好吧。别废话开始吧🔎

爬取一个在线书店的书籍标题和价格之Requests

步骤 1：准备环境

安装必要的 Python 库，例如 requests 和 BeautifulSoup。

pip install requests beautifulsoup4

步骤 2：分析目标网站

通过浏览器访问目标网站，右键检查网页源代码，找到目标数据的 HTML 结构。例如：

<div class="book">
    <h2 class="title">Python Programming</h2>
    <p class="price">$29.99</p>
</div>

步骤 3：发送 HTTP 请求并获取网页内容

使用 requests 库获取网页内容。

import requests

url = "https://example/books"  # 目标网站
response = requests.get(url)

# 检查响应状态
if response.status_code == 200:
    html_content = response.text  # 获取网页内容
else:
    print(f"请求失败，状态码：{response.status_code}")

步骤 4：解析网页内容

使用 BeautifulSoup 库解析 HTML 数据。

from bs4 import BeautifulSoup

# 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 找到包含书籍信息的元素
books = soup.find_all('div', class_='book')  # 根据 class 名找到所有书籍条目

步骤 5：提取所需数据

从 HTML 结构中提取书籍标题和价格。

for book in books:
    title = book.find('h2', class_='title').text  # 提取标题
    price = book.find('p', class_='price').text  # 提取价格
    print(f"书名: {title}, 价格: {price}")

步骤 6：保存数据

将数据保存为 CSV 文件。

import csv

with open('books.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['书名', '价格'])  # 写入表头
    for book in books:
        title = book.find('h2', class_='title').text
        price = book.find('p', class_='price').text
        writer.writerow([title, price])

总结

环境准备：安装爬虫库如 requests 和 BeautifulSoup。
目标分析：检查目标网站的 HTML 结构，确定数据位置。
发送请求：通过 HTTP 请求获取网页内容。
解析内容：使用 HTML 解析工具提取所需数据。
存储数据：将数据保存为本地文件（如 CSV 或数据库）。

使用 Selenium 进行爬虫操作适用于处理动态加载内容或需要模拟用户操作的网站。下面是一个完整的示例，包括基本步骤和代码。

使用 Selenium 爬取动态加载的书籍信息

步骤 1：安装 Selenium 和浏览器驱动

安装 Selenium 库：
```
pip install selenium
```
下载与浏览器匹配的驱动程序（如 ChromeDriver 或 GeckoDriver），并将其路径添加到系统环境变量中
- 安装和配置 Selenium 的 Chrome 驱动需要以下步骤：
  - 一、检查 Chrome 浏览器版本
    - 1. 打开 Chrome 浏览器。
    - 1. 点击右上角的 三个点 > 帮助 > 关于 Google Chrome。
    - 1. 记下浏览器的版本号，例如：119.0.1234.56。
  - 二、下载与 Chrome 版本匹配的 ChromeDriver
    - 1. 打开 ChromeDriver 官方下载页面：
        https://chromedriver.chromium/downloads
    - 1. 根据你的 Chrome 浏览器版本号，下载对应版本的 ChromeDriver。
      - 如果你的浏览器版本是 119.x，就下载 ChromeDriver 119.x。
    - 1. 根据你的操作系统选择适合的版本（Windows、Mac、Linux）。
  - 三、解压并设置路径
    - 1. 解压下载的 ChromeDriver 压缩文件。
    - 1. 将解压后的 chromedriver 文件放置在一个路径明确的地方，例如：C:\WebDriver\。
  - 四、加 ChromeDriver 到系统路径（可选）
    - Windows：
      - 打开 控制面板 > 系统 > 高级系统设置 > 环境变量。
      - 找到 系统变量 中的 Path，点击编辑。
      - 新增一行，将 ChromeDriver 的路径添加进去，例如：C:\WebDriver\。
      - 点击确定。
    - Mac/Linux：
      在终端中运行以下命令，将 ChromeDriver 添加到系统路径：

export PATH=$PATH:/path/to/chromedriver

步骤 2：导入库并初始化浏览器

使用 Selenium 初始化一个浏览器对象。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time  # 用于处理加载等待

# 初始化浏览器
driver = webdriver.Chrome()  # 确保已安装 ChromeDriver

# 访问目标网站
url = "https://example/books"
driver.get(url)

步骤 3：找到目标元素并提取数据

通过定位页面上的动态内容提取书籍信息。

# 等待页面加载完成
time.sleep(3)  # 简单等待（也可以使用显式等待）

# 定位包含书籍的元素
books = driver.find_elements(By.CLASS_NAME, 'book')  # 根据 class 名获取所有书籍条目

# 提取每本书的标题和价格
for book in books:
    title = book.find_element(By.CLASS_NAME, 'title').text  # 找到标题元素
    price = book.find_element(By.CLASS_NAME, 'price').text  # 找到价格元素
    print(f"书名: {title}, 价格: {price}")

步骤 4：处理翻页或动态加载

如果页面有翻页功能，可以模拟点击“下一页”按钮；如果数据是动态加载的，可以滚动页面加载更多内容。

示例 1：模拟翻页

while True:
    try:
        next_button = driver.find_element(By.LINK_TEXT, '下一页')  # 找到“下一页”按钮
        next_button.click()  # 点击按钮
        time.sleep(3)  # 等待新页面加载
    except:
        print("没有更多页面")
        break

示例 2：模拟滚动

# 模拟向下滚动页面
for _ in range(5):  # 滚动 5 次
    driver.execute_script("window.scrollBy(0, 1000);")  # 每次滚动 1000 像素
    time.sleep(2)  # 等待加载

步骤 5：保存数据

提取完数据后，将其保存为 CSV 文件。

import csv

with open('books_selenium.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['书名', '价格'])  # 写入表头
    for book in books:
        title = book.find_element(By.CLASS_NAME, 'title').text
        price = book.find_element(By.CLASS_NAME, 'price').text
        writer.writerow([title, price])

步骤 6：关闭浏览器

爬取完成后关闭浏览器以释放资源。

driver.quit()

注意事项

显式等待：避免使用 time.sleep，可以用 Selenium 提供的 WebDriverWait 等显式等待工具。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待元素加载
element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.CLASS_NAME, "book"))
)

反爬虫对策：
- 模拟人类操作（如随机等待、随机滚动）。
- 使用代理 IP 和设置浏览器 User-Agent。

本文标签：爬虫

版权声明：本文标题：现在还不会爬虫？内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1735051489h1695507.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

现在还不会爬虫？

爬取一个在线书店的书籍标题和价格之Requests

步骤 1：准备环境

步骤 2：分析目标网站

步骤 3：发送 HTTP 请求并获取网页内容

步骤 4：解析网页内容

步骤 5：提取所需数据

步骤 6：保存数据

总结

使用 Selenium 爬取动态加载的书籍信息

步骤 1：安装 Selenium 和浏览器驱动

步骤 2：导入库并初始化浏览器

步骤 3：找到目标元素并提取数据

步骤 4：处理翻页或动态加载

步骤 5：保存数据

步骤 6：关闭浏览器

注意事项

更多相关文章

Python爬虫实战 | (13) 爬取新浪滚动新闻

抓取安居客二手房经纪人数据，python爬虫自动翻页

【Scrapy 爬虫框架】：快速掌握 scrapy 爬虫框架

Python爬虫进阶（十）：实战，Scrapy爬取贴吧

2024年最新爬虫之Fiddler抓包腾讯视频_fiddler抓腾讯视频

3-数据提取方法1（json）（6节课学会爬虫）

【Python爬虫+js逆向】Python爬取腾讯漫画！

《Python实用爬虫案例》练习2：使用requests库爬取腾讯新闻较真平台辟谣数据

【Python爬虫+js逆向】使用Python爬取腾讯漫画的逆向分析（典型签名验证反爬虫的解决方案）——以腾讯动漫《一人之下》第一话为例

基于Python+大数据爬虫+数据可视化大屏的耳机信息的爬取与分析平台设计和实现(2025最新优质项目-系统+源码+部署文档)

Python 网络爬虫与数据采集（一）

Python爬虫案例，腾讯动漫爬虫，步骤超详细解释。

100天精通Python（爬虫篇）——第47天：selenium自动化操作浏览器（基础+代码实战）

Python网络爬虫抓不到全部的html内容怎么办

ChatGPT和爬虫组合在一起能做什么？

记录在编写ChatGPT爬虫网页时的问题

Python爬虫之浏览器User-Agent大全

OpenAI 推出新网络爬虫GPTBot，为GPT-5做准备

14爬虫：scrapy实现翻页爬取

现在还不会爬虫？

发表评论

推荐文章

SaaS创业路线图：呼吁中国企业改变软件采购流程以迎接数字化时代

零基础CentOS8安装Composer

2023年华为云618年中大促活动攻略分享

RPC初窥

在Windows11上安装Ubuntu22.04的双系统安装教程(保姆级教程)

热门文章

北京理工大学python课件

[MySql]函数

摩托车压弯技术

python登录华为路由器

linux装回windows系统,将全盘安装的linux换回windows

windows7中文企业版安装英文语言包

Windows使用XFTP连接CentOS 7

win7下卸载linux系统（不用windows光盘）

Window 10下 Sqlite安装教程

微软windows update服务器,Windows Update

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

最纯净的Win10系统下载推荐

电脑启动故障全解析：开不了机的解决策略大全

哪款手机支持windows系统

下一页分节符和连续分节符

计算机管理中看不到iis,在windows7系统中找不到iis的解决方法介绍