首 页
手机版

网络神采(数据采集软件) v6.4.6免费版

  • 软件大小:11.1M
  • 游戏语言:简体中文
  • 软件类型:国产软件
  • 软件授权:免费软件
  • 更新时间:2022/05/22
  • 软件类别:网页辅助
  • 应用平台:Windows11,Windows10,Windows8,Windows7,WinVista,Win2003,WinXP
网友评分:4.0分
网友评论 下载地址 收藏该页
本地下载
网络神采是一款轻量级的数据采集软件,该软件不需要安装,解压后即可使用,免费版本,无时间限制,可以用于快速采集、下载网页数据,并且支持网站登录采集、网站跨层采集、POST采集、脚本采集、动态页面采集等高级功能,是目前互联网上速度最快、效率最高的采集软件。全新的网络神采进行了全面优化和升级,速度快、好用、免费,支持智能采集(不用配规则)、可视化采集(不用看源文件),支持二次开发、分布式部署,可以为用户的大数据分析、信息化平台提供稳定、持续、准确的数据资源,欢迎免费下载体验。
数据采集软件

网络神采功能及优势

1、采集强度
支持JS解析、POST分页、登录采集、跨层采集。对于疑难采集页面,有成熟的解决方案。
2、速度快
支持多任务同时运行,每个任务又可以设置多线程,确保运行效率。
3、规模化
支持任务多级分类、批量管理。支持云服务器分布式部署,管理员团队协合。
4、流程化
支持定时采集,任务定时自动启动。通过二次开发,实现流程化的信息采集、信息处理。 
5、运行稳定
系统运行稳定,要求“0 bug”。目标网页改版后,自动通知管理员。
6、准确性
定制好任务后,采集准确率可达100%,即一条不漏。

网络神采:入门采集示例

新闻采集是最常用的,也是最容易理解的,我们就拿一个简单的新闻采集任务作为入门示例。该任务有两层:“新闻列表”和“新闻内容”。我们将新闻列表作为“起始地址”,然后通过“导航规则”从“新闻列表”提取“新闻内容”的网址,最后根据“采集规则”采集所需内容。
1、创建任务
在网络神采软件主窗口,单击菜单“任务”->“新建”,打开“任务编辑”对话框来创建一个任务。下面通过图文混合,一步步讨论如何填写设置:
第一步:任务概述
在“任务概述”中,我们只填写一个任务名称即可:郑州大学新闻信息。其它设置暂且不讨论,等您熟练以后再参考我们的帮助文档。

第二步:起始地址
起始地址就是我们要采集内容的入口地址,在这里是“新闻列表”:http://www3.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist?mtype=x&lan=202&tts=&tops=&pn={1,100}。其中,“pn”是分页变量名,这个可以通过在浏览时“新闻列表”时对其进行翻页并观察得出。如果“pn=1”就表示第1页,“pn=2”表示第2页,以此类推。我们为“pn”指定一个变量值:{1,100},就表示将要采集1到100页。这种分页变量格式是我们软件定义的,可以通过点击“插入”按钮插入预置分页变量。

第三步:导航规则
因为该任务有两层,所以需要建两条“导航规则”,分别命名为:“新闻列表”和“新闻内容”。我们需要从“新闻列表”提取“新闻内容”的网址,以实现导航。因此,设“新闻列表”为“中间层”,并填写“下一层网址模板”以提取网址。而“新闻内容”只需选中“最终页面”,然后保存即可。

那如何确定“新闻列表”的“下一层网址模板”呢?请看下图。

通过查看“新闻列表”的源文件,我们可以找出“新闻内容”的网址,即黄色部分所示。我们把网址中的变量部分替换成“*”(通配符),便是“下一层网址模板”,即:http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=* 。这样,我们在提取时就有了一个依据:只提取匹配模板的网址,而跳过其它网址。
“导航规则”最终设置如下:

第四步:采集规则
通过“导航规则”我们一路走到了“最终页面”,也就是“新闻内容”,接下来就需要根据“采集规则”采集所需内容了。如上图所示,一条“采集规则”对应一个数据库字段,也就是一种信息类型,如:标题、发布者、供稿人、内容等。“数据库字段”可以不填,默认为其规则名称。而“所属层次”为跨层采集功能,本示例用不到,保持默认即可。

下面就是最重要的:“信息前标志”和“信息后标志”,软件通过在源文件中查找“前后标志”来定位要采集的信息。那么如何取得信息的前后标志呢?请看下图。

如图所示,“红色部分”表示信息的前标志,而“黄色部分”为后标志,被夹在中间的“蓝色部分”就是我们需要采集的内容。依次为:“标题”、“发布者”、“供稿人”、“发布日期”、“阅读次数”、“内容”。
“采集规则”最终设置如下:

注意:
1、如果使用“前后标志”采集信息,必须与“网页源文件”中出现的顺序一致。
2、一条“采集规则”应用后,会将“采集内容”的尾部作为“当前位置”,然后从“当前位置”查找下一条“采集规则”的“信息前标志”。
3、如果选中了“全局规则”、“静态规则”,则再不受“当前位置”影响。
第五步:采集结果
如图所示,我们不在这里做任何设置,采集后直接将结果导出即可。

更新日志

v6.4.6版本
1、增加定期重启软件功能。
2、修复bug:定时采集启动任务时会进队列2次。
3、增加设置:特殊结果设置 -> 记录任务名称。
4、修复bug:Win7下启动服务IO异常。
5、按任务统计插件。
6、修复bug:文本查看器切换到空白单元格会出错。
7、如果不下载文件,不要再生成子目录(即使选中设置)。
8、F9运行文件夹下所有任务后,子文件夹的任务状态没有改变。
9、修复bug:访问休息间隔设置为“0-1秒”时失效。
10、处理JS中的相对地址时,可识别“'”前面的转义符“\”。
11、发生 Worker Thread Error 的异常时,可记录异常的详细内容。
12、读取网址时出错后,可暂停任务。
13、发生 Worker Thread Error 的异常时,任务可暂停;若暂停失败,则停止任务。
14、修复bug:继续任务时,如果任务进入任务队列,则会重新开始任务。
15、停止任务,同样要写日志。
16、改进了任务队列的查询算法。
17、改进了机器码的可读性。
18、Worker Thread Error: 引发类型为“System.OutOfMemoryException”的异常。该异常发生后,可暂停任务。
19、保存“提取网址”时如果出错,可恢复。
20、增加设置:如果“使用插件处理采集结果数据行”失败(即返回“false”),仍显示采集结果。
21、废弃设置:关闭软件时,如果有软件正在运行,强制停止所有任务。
22、改进“源文件查看器”用户体验3处:Cookie变化、粘贴POST参数时自动分离、菜单快捷键。
23、捕获地址时,如果某个参数有变化,文本框背景色则变红。
24、将检查“关键规则”调整到“采集结果筛选”之前。
25、更新插件接口(IBget 3.4),更新内容:CheckSchedule、Create 新增参数:lastTaskState、lastPausingReason。
26、请求休息间隔,支持随机数。
27、请求重试可以设置为无限次数,同时增加“重试休息间隔”、“重试错误范围”设置。
28、任务增加设置:动作失败后不暂停任务。
29、下载文件时,只请求一次。
30、运行整个文件夹的任务时,增加快捷键:F9。
31、修复bug:批量暂停正在启动的任务时,会有“运行中”状态闪过。
32、解决:运行信息窗口资源释放问题。
33、使用插件处理结果数据行后,如果返回false,则数据行不再显示。
34、循环采集拆分字符串数组时,保留空值。
35、修复内存bug一处。
36、修复bug:查看等待区出错:集合已修改;可能无法执行枚举操作。
37、修复bug:由于插件日志回调事件,会引发异常:远程对象已断开。
38、修复bug:设置窗口如果不操作,2分钟后会抛异常:远程对象已断开。
39、更新插件接口(IBget 3.3),更新内容:ExtractResult 新增参数:rowIndex;Create 新增参数:supportAsyncCall。
40、创建插件时如果出错,任务不再提示连接数据库。
41、特殊结果 -》 记录当前网址,如果有POST参数,则包含在其中。
42、修复bug:任务完成后取消定时采集,在选中“使用插件检查定时采集”时仍起作用。
43、修复bug:源文件查看器预览功能,不能预览框架页。
44、增加复制采集规则功能。
45、提取下一网址时,如果与网址队列重复,则提示:提取 n 条, 已去重.
46、连续提取下一层网址失败已达到 n 次后,不再提取下一页网址,不然下次请求时会重复提取。
47、修复几处内存溢出问题。
48、修复bug:文本查看器 html 方式查看,关闭窗口后,再打开出错“未将对象引用设置到实例”。
49、改进定时采集检查思路:取当前时间并缓存,这样就没有了定时偏差。
收起介绍展开介绍
  • 数据采集软件
更多 (15个) >>简单好用的数据采集工具软件 数据采集软件(采集器),就是采集的机器或者工具。采集软件就是为了解决从网页上、客户端上采集信息的需求而由专业的互联网软件公司研发的一整套工具软件。用于实现自动化采集从大批量网页上、客户端上采集数据。数据采集软件是用于网站信息采集,网站信息抓取,包括图片、文字等信息采集处理发布,这里小编整理了一些主流的数据采集软件,同时也是通用性采集软件,可以应用在各个行业,满足各种采集需求,是复杂采集需求的必选,也是采集软件使用新手的首选。
  • 下载地址
网络神采(数据采集软件) v6.4.6免费版

有问题? 点此报错

发表评论

0条评论