admin 管理员组

文章数量: 887021

上篇记录了第一个Demo,使用WebMagic进行了单页面的信息获取,在控制台输出了信息,这次来进行多页面的信息获取,然后存储到数据库,使用Mybatis框架,mysql5.5库

pom.xml,以及log4j的配置参见上文

这里记录mybatis-config.xml的配置以及数据库地址的配置

jdbc.driver=com.mysql.jdbc.Driver
jdbc.url=jdbc:mysql://localhost:3307/webmagic
jdbc.username=root
jdbc.password=123456

创建jdbc.propertise文件,写入自己的数据库配置信息,用于连接数据库

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE configuration
        PUBLIC "-//mybatis//DTD Config 3.0//EN"
        "http://mybatis/dtd/mybatis-3-config.dtd">
<configuration>
    <!-- 这里用于获取连接数据库的配置文件 -->
    <properties resource="jdbc.properties"></properties>
    <!-- 别名配置 -->
    <typeAliases>
        <package name="pojo"/>
    </typeAliases>
    <!-- 属性资源配置 -->
    <!-- SqlSessionFactory配置 -->
    <environments default="development">
        <environment >
            <!-- 事务管理器配置 -->
            <transactionManager type="JDBC"/>
            <!-- 数据源配置 -->
            <dataSource type="POOLED">
                <property name="driver" value="${jdbc.driver}"/>
                <property name="url" value="${jdbc.url}"/>
                <property name="username" value="${jdbc.username}"/>
                <property name="password" value="${jdbc.password}"/>
            </dataSource>
        </environment>
    </environments>
    <mappers>
        <mapper resource="mapper/csdn_titleUrl_oneDao.xml"/>
        <mapper resource="mapper/csdn_user_messageDao.xml"/>
    </mappers>
</configuration>

配置MyBatis,配置数据源,配置映射的Mapper文件

Mybatis的相关资料以及配置不多赘述,百度很多,直接进入爬虫逻辑类

与上次的单页面信息获取一样,流程依然是:

    下载页面 -> 解析页面信息 -> 得到信息处理信息

只不过这次我们需要获取的是多个页面,而不是一个,获取的是多条信息,

为了方便起见,还是先把可能用到的信息初始化了出来,不考虑安全性性能,拿出来用就好

private static csdn_titleUrl_one csdn;
    private static csdn_titleUrl_oneService csdnService = new csdn_titleUrl_oneService();
    private List<csdn_titleUrl_one> allList;
    private static String username = "dog250";//需要爬取的用户名信息,可更改,也可设置为手动输入(实现控制台的scanner)
    private static int count = 0;//文章总数
    private static int number = 1;//当前页码数
    private static Spider spider = Spider.create(new getCsdn_TitleAndUrl());
    private static String START_URL = "https://blog.csdn/" + username + "/article/list/" + number;
    private Site site = Site.me()
            .setDomain("www.baidu")
            .setSleepTime(5000)
            .setCharset("utf-8")
            .setRetrySleepTim

本文标签: 爬虫 多页 WebMagic Demo