火车采集器功能介绍和使用技巧

【火车采集器功能介绍和使用技巧】

火车采集器功能介绍和使用技巧


火车头采集器是一款非常好用的互联网爬虫工具 , 采用VisualC#编写产品 , 专业用于互联网的数据抓取、分析、处理、挖掘 。软件绿色安全 , 安装便捷 , 其主要被用于进行网络数据处理 , 可以灵活迅速地抓取网页中大量非结构化的文本 。火车头采集器提供一站式高效采集服务 , 通过一系列的分析处理 , 支持多类型数据库 , 采用多线程采集方式 , 准确挖掘出所需数据 , 其强大的识别系统 , 积累了大量用户和良好口碑 , 能够准确识别各种编码文字 , 满足不同的数据处理需求 。火车采集器功能介绍和使用技巧图1火车头采集器菜单功能介绍:火车采集器功能介绍和使用技巧图21.新建分组选择所属分组 , 新建一个任务分组 , 确定分组名称和备注 。2.新建任务新建一个任务 , 确定所属分组 , 填写任务名称并保存 。3.Web发布配置定义登陆一个网站以及向该网站提交数据 。涉及到网站编码设定 , 登录信息的获取 , 栏目列表的获取 。4.Web发布模块获取栏目列表 , 可以定义网站登录 , 获取网页随机值 , 内容发布参数 , 构造发布数据等高级功能 。5.数据库发布配置定义数据库链接信息的设置以及数据库模块的选择 。6.数据库发布模块用于编辑数据库的发布模块 , 火车采集器可选四种数据库类型 , 方便我们将数据发布到配置好的数据库中 。在采集器模块文件夹中加载 , 在文本输入框中填写sql语句 。7.计划任务设置列表中采集任务的启动计划 , 保存设置后 , 任务即可按照设置执行 。8.插件管理插件是可以用来扩展火车采集器功能的程序 , 支持三种类型的插件 , 可用于扩展http请求 , 并可以分别进行测试 。9.http二级代理可以让网络用户去取得所需要的网络信息 。可以突破自身ip的访问限制访问国外站点 , 访问一些单位或团体内部资源 。火车采集器功能介绍和使用技巧图3火车采集器功能介绍和使用技巧图4火车头采集器使用技巧:采集规则制作的第一步骤 , 进行起始网址设置 , 点击向导添加 , 出现如下界面 。有批量网址 , 普通网址 , 文本导入3种方式 。火车采集器功能介绍和使用技巧图51、普通网址:不做任何解析 , 以一行一个的形式直接加入网址 。2、批量网址:以通用的表达式 , 批量生成网址 。3、文本导入:文本为一行一个的网址 , 以文本导入的形式 。如需转换原有数据库请勾选“转换内容库” , 否则数据库内容将被清空.

    推荐阅读