admin 管理员组文章数量: 887021
上篇记录了第一个Demo,使用WebMagic进行了单页面的信息获取,在控制台输出了信息,这次来进行多页面的信息获取,然后存储到数据库,使用Mybatis框架,mysql5.5库
pom.xml,以及log4j的配置参见上文
这里记录mybatis-config.xml的配置以及数据库地址的配置
jdbc.driver=com.mysql.jdbc.Driver
jdbc.url=jdbc:mysql://localhost:3307/webmagic
jdbc.username=root
jdbc.password=123456
创建jdbc.propertise文件,写入自己的数据库配置信息,用于连接数据库
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE configuration
PUBLIC "-//mybatis//DTD Config 3.0//EN"
"http://mybatis/dtd/mybatis-3-config.dtd">
<configuration>
<!-- 这里用于获取连接数据库的配置文件 -->
<properties resource="jdbc.properties"></properties>
<!-- 别名配置 -->
<typeAliases>
<package name="pojo"/>
</typeAliases>
<!-- 属性资源配置 -->
<!-- SqlSessionFactory配置 -->
<environments default="development">
<environment >
<!-- 事务管理器配置 -->
<transactionManager type="JDBC"/>
<!-- 数据源配置 -->
<dataSource type="POOLED">
<property name="driver" value="${jdbc.driver}"/>
<property name="url" value="${jdbc.url}"/>
<property name="username" value="${jdbc.username}"/>
<property name="password" value="${jdbc.password}"/>
</dataSource>
</environment>
</environments>
<mappers>
<mapper resource="mapper/csdn_titleUrl_oneDao.xml"/>
<mapper resource="mapper/csdn_user_messageDao.xml"/>
</mappers>
</configuration>
配置MyBatis,配置数据源,配置映射的Mapper文件
Mybatis的相关资料以及配置不多赘述,百度很多,直接进入爬虫逻辑类
与上次的单页面信息获取一样,流程依然是:
下载页面 -> 解析页面信息 -> 得到信息处理信息
只不过这次我们需要获取的是多个页面,而不是一个,获取的是多条信息,
为了方便起见,还是先把可能用到的信息初始化了出来,不考虑安全性性能,拿出来用就好
private static csdn_titleUrl_one csdn;
private static csdn_titleUrl_oneService csdnService = new csdn_titleUrl_oneService();
private List<csdn_titleUrl_one> allList;
private static String username = "dog250";//需要爬取的用户名信息,可更改,也可设置为手动输入(实现控制台的scanner)
private static int count = 0;//文章总数
private static int number = 1;//当前页码数
private static Spider spider = Spider.create(new getCsdn_TitleAndUrl());
private static String START_URL = "https://blog.csdn/" + username + "/article/list/" + number;
private Site site = Site.me()
.setDomain("www.baidu")
.setSleepTime(5000)
.setCharset("utf-8")
.setRetrySleepTim
版权声明:本文标题:WebMagic爬虫Demo尝试(二) - 多页面 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1726434910h960031.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论