首页技术总结正文内容

java使用webMagic爬虫

技术总结

更新时间：2024-12-22 18:18:17 4

admin 管理员组

文章数量: 887007

java使用webMagic爬虫

WebMagic是一个简单灵活且功能强大的Java爬虫框架。它旨在提供一种方便快捷的方式，让开发者能够快速构建一个爬虫。以下是关于WebMagic的基本使用。

1. 环境准备

Java环境（JDK 1.8及以上版本）
Maven或Gradle构建工具
一个文本编辑器或IDE（如IntelliJ IDEA）

2. 安装WebMagic

通过Maven或Gradle将WebMagic添加到你的项目中。

2.1 Maven

在项目的pom.xml文件中添加以下依赖：

     <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.10.0</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.10.0</version>
        </dependency>

注意:在webMagic的官方文档中给出的依赖是 0.7.3这个版本只能进行爬取http协议,所以为了避免这些麻烦,我就就直接使用最新版本的框架了.

2.2 Gradle

使用Gradle可以在build.gradle文件中添加如下依赖：

dependencies {
    implementation 'us.codecraft:webmagic-core:0.7.3'
}

也建议更改为最新版本.

三、编写第一个爬虫

下面是一个简单的WebMagic爬虫示例，这里我要进行爬取新浪博客现在排名第一的徐小明的博客的全部的内容.

爬取的链接:https://blog.sina/s/articlelist_1300871220_0_1.html

package com.fs.spider;

import cn.hutool.core.util.StrUtil;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List;

class MySpiderTest implements PageProcessor {
	 public static final String url = "https://blog.sina/s/articlelist_1300871220_0_1.html";
	 public static  String urlcopy = "https://blog.sina/s/articlelist_1300871220_0_{}.html";
	 public static int pageSize = 1;

	// 创建一个爬虫站点的配置信息
	 public static Site site=Site
			 .me() // 创建一个默认的site方法
			 .setSleepTime(3000) // 请求的间隔时间
			 .setUserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36");


	@Override  // 获取到网页内容后对网页进行逻辑处理
	public void process(Page page) {
		// 获取到爬取链接的,根据链接进行判断是内容还是网页列表
		String url = page.getUrl().get();
		if(url.contains("articlelist")){
			List<String> list = page.getHtml().xpath("//div[@class=\"articleList\"]")
					.links() // 获取到改元素下的所有的链接
					.all(); // 返回所有的抽取结果到list中
			// 将获取链接进行添加到爬取的目标队列当中,继续进行爬取
			page.addTargetRequests(list);
			// 爬取下一页操作
			pageSize++;
			page.addTargetRequest(StrUtil.format(urlcopy,pageSize));
		// 进行爬取文章的内容
		}else{
			// 提取到的标题存储到页面对象
			// smartContent:获取到元素下所有的文本内容
			page.putField("title",page.getHtml().xpath("//div[@class='articalTitle']/h2").smartContent());
			// 获取到文章的内容
			page.putField("content", page.getHtml().xpath("//div[@id='articlebody']//div[@class='articalContent']").smartContent());
			// 获取到发布的时间
			page.putField("date", page.getHtml().xpath("//div[@id='articlebody']//span[@class='time SG_txtc']").regex("\\((.*)\\)"));
		}
	}

	@Override  // 进行配置爬虫站点的请求的信息配置
	public Site getSite() {
		return site;
	}

	public static void main(String[] args) {
		// 创建一个爬虫程序,即这里为本页面的爬虫程序
		Spider spider = Spider.create(new MySpiderTest());
		spider.addUrl(url).run();
	}
}

运行main方法,可以在控制台进行看见爬取获取到的文章的标题,内容,发布时间等,

五、高级特性

WebMagic提供了一些高级特性，如：

动态网页爬取：可以使用WebMagic的Downloader来模拟浏览器行为。
结果持久化：可以自定义Pipeline，将结果保存到文件或数据库。
去重机制：WebMagic内置了URL去重机制，避免重复爬取。

六、注意事项

遵守robots.txt：尊重目标网站的爬取规则。
合理设置爬取频率：避免给目标网站带来过大压力。
使用代理和User-Agent：降低被封禁的风险。

七、社区与支持

WebMagic有一个活跃的社区，你可以通过以下方式获得帮助：

官方文档：http://webmagic.io/docs/en/
GitHub仓库：https://github/code4craft/webmagic
社区论坛：http://webmagic.io/forum/

本文标签：爬虫 java WebMagic

版权声明：本文标题：java使用webMagic爬虫内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1729931913h1371763.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

Java默认字符编码与Windows系统语言设置

技术总结

2月前

href"http:liushi.hitideapluginsplogeshistylesplogeshi.css" type"textcss" rel"stylesheet&

用 ChatGPT 网页爬虫发现隐藏的网络数据

技术总结

2月前

文章目录什么是隐藏的网络数据？如何爬取隐藏的网络数据？设置使用 chatgpt 爬取隐藏的网络数据ChatGPT 字符限制常见问题解答什么是隐藏的网页数据？ChatGPT

ChatGPT和爬虫组合在一起能做什么？

技术总结

2月前

如果把ChatGPT和爬虫组合在一起，你会得到一个非常强大的工具，可以用来解决许多问题。ChatGPT是一个基于人工智能的聊天机器人，而爬虫则是一种自动化程序，用于从互联网上获取数据。这两个工具结合在一起可以实现许多有趣的功能。爬取聊天

Node.js 网页瘸腿爬虫初体验

技术总结

2月前

延续上一篇，想把自己博客的文档标题利用Node.js的request全提取出来，于是有了下面的初哥爬虫，水平有限，这只爬虫目前还有点瘸腿&#xf

Java技术在邮件服务器中的应用详解：Win_mail4.4版本

技术总结

2月前

本文还有配套的精品资源，点击获取简介：Win_mail4.4是一款基于Java技术的邮件服务器软件，它提供了稳定、安全和易用性。本文探讨了Win_mail4.4版本在J

Java 软件安装流程详解

技术总结

2月前

前言：对于很多同学来说，刚开始学Java很苦恼的一件事就是安装软件和配置。包括jdk，Myeclipse10，eclipse，

java实时监控系统_JavaMonitor

技术总结

2月前

Java应用性能监控系统(JM) 1.简介 JM(Java应用监控系统)是基于Java8制作而成的一款在线监控系统。 JM适用于监控所有Java应用，具有堆内存监控、方法区监控、GC监控、类加载监控、类编译监控与线程监控等，提供堆快照下载，

java获取ua浏览器指纹_头条：如何获取浏览器指纹信息

技术总结

2月前

❝ 本文收录于 GitHub 日问: DailyQuestion，内含大厂内推机会、面经大全及若干面试题，每天学习五分钟，一年进入大厂中。大厂面经大全大厂内推 ❞ 由于不

Python爬虫之浏览器User-Agent大全

技术总结

2月前

一、基础知识篇： Http Header之User-Agent User Agent中文名为用户代理，是Http协议中的一部分，属于头域的组成部分，U

目前5大浏览器厂商的UA头PC版，大家做爬虫时可以用

技术总结

2月前

谷歌览器：Mozilla5.0 (Windows NT 10.0; Win64; x64) AppleWebKit537.36 (KHTML, like Gecko) Chrome99.0.4844.82 Saf

Java获取UserAgentJava获取当前请求的操作系统及版本、浏览器及版本

技术总结

2月前

识别客户使用的操作系统及版本、浏览器及版本、浏览器渲染引擎等本文采用Hutool，Hutool在4.2.1之后支持User-Agent的解析。目前Hutool　UserAgent支持获取一下属性 ** 是否为移动

JAVA：如何在Windows7系统中配置环境变量。

技术总结

1月前

笔者之前因为操作系统老旧而在网络上苦苦搜寻不到环境变量配置的方法，最终在《Java：从入门到精通》的旧版书上找到了解决办法，故将其抄录下来分享给大家。在Windows 7系

【编程语言】Java夯实基础（一）：Java的起源与发展

技术总结

1月前

Java的起源与发展前言一、发展早期二、版本历史三、版本迭代总结前言 1990年代初，任职于Sun微系统的詹姆斯·高斯林等人开发了Java语言的雏形Oak，当时的目标是开发一款应用在家用电器等小型系统上的编程语言。由于这些智能化家电的市

狂神Java面试题总结：基础及语法169道

技术总结

1月前

狂神Java面试题总结：基础及语法169道收集整理:秦疆联系方式QQ:24736743 微信:qinlvejiang 答案来源收集与互联网,部分内容经供参考,代码全部为手写验证通过. 1~20 1. Jav

2021 Java后端+大数据暑期实习大厂面经

技术总结

1月前

目录高频考点操作系统篇1.进程与线程的区别【常问】2.进程的通信方式？【常问】3.操作系统调度方法？【腾讯】4.缓存算法（页面置换算法）？【字节、腾讯】5.什么是死锁？如何避免死锁？6.IO模型7.IO复用：select、epoll、po

java使用webMagic爬虫

技术总结

1月前

java使用webMagic爬虫 WebMagic是一个简单灵活且功能强大的Java爬虫框架。它旨在提供一种方便快捷的方式，让开发者能够快速构建一个爬虫。以下是关于WebMagic的基本使用。 1. 环境准备 J

五、Python复习教程（重点）-爬虫框架实战

技术总结

1月前

目录导航： 文章目录目录导航：九、Python网络爬虫进阶实战(上)1. Scrapy框架介绍与安装1.1.认识Scrapy框架Scrapy框架介绍：Scrapy框架的运行

java实现文件的上传和下载

技术总结

27天前

java实现文件的上传和下载本文是基于Windows 10系统环境，实现文件的上传和下载： Windows 10MyEclipse 10 一、文件上传 (1) 文件上传的条件提交方式&

【Java毕业设计】基于JavaWeb的在线购物网站的设计与实现(Vue+SpringBoot）

技术总结

18天前

文章目录摘要ABSTRACT目录1 概述1.1 研究背景及意义1.2 国内外研究现状1.3 拟研究内容1.4 系统开发技术1.4.1 vue技术1.4.2 BS结构1.4.3 Spring Boot框架1.4.4 MySQL数据库1

Java 11 下载 - 版本 11.0.17 (Windows 各版本)

技术总结

10天前

Java 11 下载 - 版本 11.0.17 (Windows 各版本) 【下载地址】Java11下载-版本11.0.17Windows各版本本仓库提供 Java 11 版本 11.0.17 的下载资源，适用于 W

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

java使用webMagic爬虫

java使用webMagic爬虫

1. 环境准备

2. 安装WebMagic

2.1 Maven

2.2 Gradle

三、编写第一个爬虫

五、高级特性

六、注意事项

七、社区与支持

更多相关文章

Java默认字符编码与Windows系统语言设置

用 ChatGPT 网页爬虫发现隐藏的网络数据

ChatGPT和爬虫组合在一起能做什么？

Node.js 网页瘸腿爬虫初体验

Java技术在邮件服务器中的应用详解：Win_mail4.4版本

Java 软件安装流程详解

java实时监控系统_JavaMonitor

java获取ua浏览器指纹_头条：如何获取浏览器指纹信息

Python爬虫之浏览器User-Agent大全

目前5大浏览器厂商的UA头PC版，大家做爬虫时可以用

Java获取UserAgentJava获取当前请求的操作系统及版本、浏览器及版本

JAVA：如何在Windows7系统中配置环境变量。

【编程语言】Java夯实基础（一）：Java的起源与发展

狂神Java面试题总结：基础及语法169道

2021 Java后端+大数据暑期实习大厂面经

java使用webMagic爬虫

五、Python复习教程（重点）-爬虫框架实战

java实现文件的上传和下载

【Java毕业设计】基于JavaWeb的在线购物网站的设计与实现(Vue+SpringBoot）

Java 11 下载 - 版本 11.0.17 (Windows 各版本)

发表评论

推荐文章

华为服务器用光盘重装系统_光盘重装系统图文教程

Android抓包工具：Fiddler详解

CTU搬运、货到人拣选！探秘“智能工厂”

卸载、下载、安装mysql（Linux系统centos7）

windows7 找不到w3wp.exe 进程

热门文章

解决centos 7外网访问、ping不通windows系统的问题(NAT和桥接模式)

oracle 11g升级步骤,ORACLE 11g从 11.2.0.1升级到11.2.0.4 详细实战教程

ArcGIS api for JavaScript

Deluge 0.5.0 正式版公布

一辈子的回忆（超好笑，强力推荐）

Windows网络问题：局域网内电脑连接wifi连不上

卸载linux系统安装windows系统

Opengrok本地搭建（Windows10）

设置计算机的电源计划,Win7系统电源计划，怎么自己设置电源计划

Windows系统下CMD命令行切换目录文件

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

win7计算机管理中看不到新加的硬盘,win7系统看不到第二块硬盘的解决方法.

[转]笔记本电脑处理器(CPU)性能排行榜

project安装包的下载和安装教程

测试模式 windows2008 内部版本7601

如何区分自己的windows系统是正版还是盗版 ？从零基础到精通，收藏这篇就够了！

如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！