返回 杂类工具

展开

可可软件园> 应用软件> 杂类工具

熊猫采集软件

大小:12.1M时间:2020-01-17 13:11:23 类别:杂类工具系统:WinAll
简介|教程
软件介绍

熊猫采集软件是一款非常强大的数据采集工具,能够帮助用户采集各种网上的文字图片视频各种内容,并且该软件是目前市面同类型软件中采集速度数一数二的,有需要的朋友不要错过了,赶快下载吧!

功能特点

【全方位的采集功能】

浏览器可见的内容都可以采集。采集的对象包括文字内容,图片,flash动画视频等等各类网络内容。支持图文混排对象的同时采集。

【面向对象的采集方式】

面向对象的采集方式。正文和回复内容同时采集的能力,分页的内容可轻松合并,采集内容可以是分散在多个页面内。结果可以是复杂的父子表结构。

【采集速度快】

熊猫采集的采集速度是采集软件中最快的(之一)。不使用落后低效的正则匹配技术。也不使用第三方内置浏览器访问的技术。使用自己研发的解析引擎。

【结果数据完整度高】

熊猫独有的多模板功能,确保结果数据完整不遗漏。独有的智能纠错模式,可以自动纠正模板和目标页面的不一致。

【JS解析的自动判断识别】

现在很多网页都采用了ajax网页内容动态生成技术。此时仅仅依靠网页源码,并不能获取需要的有效内容。此时就需要对被采集的页面执行JavaScript(JS)解析,获取JS执行后的结果代码。

熊猫支持对需要JS解析的页面,执行JS解析,获取JS解析后的实际内容。鉴于执行JS解析的速度效率很低,因此熊猫内置了智能判断功能,自动检查是否需要对被采集的页面执行JS解析,如果不需要的,尽量不使用低效的JS解析模式。

【多模板自动适应能力】

很多网站的“内容页面”会存在多个不同种类的模板,因此熊猫采集软件允许每个采集项目可以同时设置多个内容页面参考模板,在采集运行时,系统会自动匹配寻找最合适的参考模板用来分析内容页面。

【实时帮助窗口】

在采集项目设置环节,系统会在窗口右上显示与当前配置相关的实时帮助内容,为使用新手提供实时帮助。因此熊猫采集软件的使用可以轻松上手。配合全程智能化辅助能力,即便是第一次接触熊猫采集软件,也可以较轻松实现采集项目的配置工作。

【分页内容的轻松合并】

支持各种类型的分页模式,用户只需要做两步就可以实现分页内容的合并:鼠标点选确认分页链接所在,将需要分页合并的字段项勾选上“分页合并”项即可。如果页面内具有重复子项存在,则能自动在分页中寻找该重复子项,隐含自动进行分页内容合并。

典型如上述的论坛例子,分页页面内的回复内容,可自动实现归并,此时用户只需要鼠标点选确认分页链接所在即可。有些场合下,在论坛内容页面的分页中也会同时出现主体(主表)内容,此时系统会自动进行判断,不会将主表内容当成重复子项的子表内容进行采集。

使用方法

用户名:test 密码:123456 登录即可免费使用

1、点击软件上的新建项目(标准),输入项目名称

2、在方框中输入 索要采集额信息列表 网址,接着点击 “开始进行预分析”,在弹出的对话框种选择“否”;选择翻页方式1。

3、然后选择信息栏种的下一页的图标,最后点击“下一步设置”

4、在选择内容页 项中,任意选择一条信息标题,然后点击“下一步设置”

5、在内容页面模板管理中,点击开始分析,在弹出的对话框种选择否

6、在左侧方框中选择帖子的标题,勾选住采集该项,及该项必须命;在存入数据库中,选择“采集存储表”,然后选择标题;

7、在采集内容页时,我们要选中内容的上部及下部,即夹在中间的是索要采集的内容,首先找到内容的上部,勾选住采集该项,及该项必须命,该项分页归并;在存入数据库中,选择“采集存储表”,然后选择内容8.在软件的“属性页”点击 如下图标 立即运行改项目,此时采集一键开始;

采集到的信息将在下方的方框中以列表的形式显示出来;此时选中任意一个信息标题,然后点击 内容页即可看到采集到的信息 标题,内容及链接。

常见问题

在部分win7操作系统中,系统不能正常更新,原因是操作系统登录账号不具有对安装目录的必要操作权限。解决方法:

1、安装时请不要安装在系统文件夹Program Files下,新版本熊猫安装程序已经将默认安装目录设置为:c:\熊猫采集\。如果还是不能解决问题,请尝试如下方法:

2、推荐安装到非C盘目录下,如:D:\熊猫采集\

2、请打开熊猫采集软件的安装目录,右键打开“属性”对话框,并点击“安全”标签,检查其中“组或用户名”列表中是否有操作系统当前登录账号,如果没有,请添加当前登录账号,并设置“修改”权限为是。

3、请用操作系统的超级管理员账号(administrator)登录操作系统,并进行安装使用。

4、应避免安装在盘符根目录下(应该要有自己的安装文件夹)。

加载全部内容

热门推荐
推荐教程
猜你喜欢
相关合集
本类排行