admin 管理员组文章数量: 887021
2023年12月22日发(作者:python办公用处)
关于火车头使用方法
1
目录
目录 .................................................................................................................................................. 2
一、 原理描述 ................................................................................................................................. 3
1.火车采集器数据抓取原理: ............................................................................................... 3
2.火车采集器数据发布原理: ............................................................................................... 3
3.火车采集器工作流程: ....................................................................................................... 3
二、 术语解释 ................................................................................................................................. 4
三、下载地址 ................................................................................................................................... 5
四、安装升级与卸载 ....................................................................................................................... 6
五、操作步骤 ................................................................................................................................... 7
2
一、 原理描述
1.火车采集器数据抓取原理:
火车采集器如何去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。
2.火车采集器数据发布原理:
在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。
1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。
2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。
3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。
4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
3.火车采集器工作流程:
火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。
1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。
2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。
具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。
3
二、 术语解释
名称
采集规则
说明
采集规则分为站点规则和任务规则,通常是指任务规则。所谓采集规则就是要采集一个网站时在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。
采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集器里导出的采集规则文件(.ljob后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljob文件。
发布模块又称为发布规则,通常是指数据库发布模块或者WEB发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:指定数据库,网站中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.jhc;WEB在线发布模块文件的后缀名为:.cwr。
(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)
采集任务
发布模块
发布接口 发布接口就是一个小的页面程序通常和WEB发布模块配合使用。WEB在线发布(使用WEB发布模块)是将采集的数据以POST方式发送到网站页面程序中由网站程序处理数据。而发布接口就是为了满足特定需求而写的一个网站的页面程序(如:PHP页面,ASP页面等)。然后采集器通过WEB在线发布将数据发送到这个接口文件由这个接口文件处理数据。接口文件通常放在服务器网站某个目录下。简单的说就是采集器将采集的数据发送到接口文件中,接口文件得到数据后去处理数据。使用发布接口用户可以更加灵活自由的处理采集器发送的数据。
火车采集器里的插件分为PHP插件和.NET插件两种。标准版支持PHP插件,企业版支持PHP插件和.NET插件。插件可以让用户通过自己写PHP程序或者.NET程序放到采集器中对采集的数据进行处理。采集数据数据在四个地方可以使用插件,分别为:采网址时、采内容时、采多页时,保存时。
插件
4
发布数据 发布数据就是将采集到的数据发布到指定的目的地,火车采集器支持四种发布方式。
方式一:Web在线发布到网站
这种发布方式类似于在网站后台手工添加数据一样。采集器将数据发送给网站后台程序,由网站后台程序去处理数据通常后台程序讲数据存入网站数据库中。
方式二:保存为本地文件
这种方式可以将采集的数据发布到本地的文件中,采集器支持保存成Txt格式、Csv格式和Html格式。
方式三:导入到自定义数据库
这种方式可以通过采集器连接到其他数据库从而将采集的数据从软件内置数据库中导入到其他的数据库中,目前采集器支持连接 Mysql、Access、Oracle、MSsql数据库。
方式四:保存为本地Sql文件(Insert语句)
这种方式是将采集的数据导出保存成Insert语句,可以用于在数据库的管理工具中执行插入数据。
本地编辑数据 采集器不仅可以采集发布数据,还可以将采集下来的数据经过编辑以后再发布。支持批量替换,通过SQL语句批量处理以及在文本编辑框里编辑。
三、下载地址
软件名称
LocoySpiderV2010SP2_Free_
下载地址
/Down/LocoySpider/
/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/
软件描述
火车头采集器绿色版
.net framework 2.0
.net framework 2.0
5
四、安装升级与卸载
火车采集器系统需求
火车采集器可以运行于Windows 2000或以上操作系统,CPU 的速度为 "奔腾133 MHz" 或以上,128 MB 内存容量或以上。
火车采集器的安装
火车采集器2010版是绿色软件。如果您电脑上安装了微软的.NET FrameWork 2.0框架或更高版本,安装时直接解压缩到您电脑的任何地方即可完成采集器的安装--安装过程不操作注册表和系统文件,不产生任何垃圾文件!如果您安装后程序无法启动,那可能是您电脑没有安装.NET FrameWork 2.0,请下载微软的.NET FrameWork 2.0框架或更高版本并安装。附2.0下载地址:
.net framework 2.0下载地址:
/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/
解压完成后,双击目录内的文件启动主程序开始采集之旅。
火车采集器的升级
从火车采集器V3.2SP5,V2008或V2009版本升级到V2010:请运行程序目录下的
程序,按提示进行操作。
火车采集器卸载
由于种种原因,您暂时不想使用火车采集器了,那么您直接找到火车采集器的安装文件夹删除即可以完成火车采集器的卸载。在卸载前强烈建议您先备份,User,Plugins,Data和Module文件夹(即用户配置,插件目录,采集数据和模块)以便下次使用!
6
五、操作步骤
a) 打开火车头主程序,进入到火车头的主界面,主程序和主界面如下
b) 新建站点
点击左上角的“新建->新建站点”进入到该新建页面,图如下
7
在站点名输入想要采集的网站的名称,然后保存即可
c) 新建任务
选择新建好的站点“测试1”,点击左上角的“新建->新建任务”进入到该新建页面,图如下
8
在新建任务这个页面中,一共包含4个步骤,一次是 采集网址规则,采集内容规则,发布内容设置和文件保存及部分高级设置
1采集网址规则
首先选择站点测试1,任务名根据你要采集的对象命名,例如新闻。采集网址深度,就是网站结构的深度,默认为1或者0,如果需要采集更深入,可以选择2,网站编码设为自动识别即可,检测重复网站保持默认不变, http获取方式,根据情况而定,默认为get方式,点击向导添加按钮,进入添加网址页面
9
常用的就是单挑网址和批量多页,在地址栏输入你要采集的网站地址,点击添加,地址就会自动保存到下面,点击完成即可,批量/多页用到的情况是,一个页面有多个子页面的情况下使用,例如,一个城市页面,子页面有公交线路,旅游风景之类的情况下使用。点击完成后,回到了上一个界面,点击右下角的“开始测试网址采集”按钮,开始采集网址。
10
在网址采集的结果中,该网站所有目录都被采集了出来,并不是每一个网址的信息就都需要采集,比如我们只需要/sort/这个目录下的网址,点击“返回修改设置”回到上一个界面,在文章内容页面的地址必须包含后的文本框中输入/sort即可
然后重新点击“开始测试网址采集”,进行采集,其结果如下图
那么第一部的采集网址规则设定就完成了
2 采集内容规则
采集内容规则,也就是说你要从才一个页面采集那些信息,然后制定一个公式。在第一部中,任意选择一个页面地址,然后点击右边栏的“测试该页”进入到第二部:采集内容规则界面
11
点击右上角的“测试”按钮,在下面的文本框就会显示该网址的html代码,根据这些html和自己需要采集的内容制定标签,在页面内容标签定义中,点击“添加标签”,进入添加标签定义页面
12
输入标签名,标签名对应所要采集的数据,在该标签页面中,有相应的功能,支持正则表达式和标签排除,开始字符串和结束字符串即为要采集的数据,例如
标签规则制定完了以后,点击“确定”按钮保存,回到上一个页面!然后点击页面的“测试”按钮,使用标签对网页进行过滤,查看效果,做及时的修改,如果结果没问题,第二部就完成!
3 发布内容设置!
在该页面中,主要是对采集好的数据进行保存,这里一共有4种保存方式,第一种则是直接发送到自己网站的根目录,第二种则是保存html,txt,cvs。3种文件格式,其中html方式,支持html模版!第三种则是直接保存至数据库,支持的数据库有access,mysql,sqlserver,oracle,4种,数据库方式,需要先建立好数据库和表。第四种则是保存为sql文件
13
4 文件保存及部分高级设置
14
第四部主要是对运行任务的管理,图片,flash文件的保存进行管理,支持FTP。
这四部完成了以后,点击保存按钮,采集设计就完成了
d)任务采集!保存后自动回到火车头的主界面。选择要采集的任务
点击开始按钮即可,或者,右键该任务,选择“开始任务采集”火车就开始按照制定的规则开始采集信息了
其他
火车头支持定时任务功能
15
可以制定详细的计划,对指定的网站进行定时采集功能,支持多任务
16
版权声明:本文标题:火车头采集器应该如何使用 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1703252710h444177.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论