博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
前嗅ForeSpider教程:运行设置(一)
阅读量:5908 次
发布时间:2019-06-19

本文共 841 字,大约阅读时间需要 2 分钟。

今天,小编为大家详细介绍一下:前嗅ForeSpider运行设置中的采集速度,采集策略和任务装载,这三大模块。具体内容如下:

一,采集速度

采集速度是调节任务采集快慢的一项设置,对采集速度的影响包括线程数目和采集间隔。

采集速度

clipboard.png

1.线程数目

线程数目是运行采集任务时,软件启用的线程资源数目。线程数目越大,采集速度越快。

2.采集间隔

是指任务采集链接之间时间间隔。用户可以直接滑动按钮进行设置采集间隔,也可以直接填写采集间隔的时间数。

二,采集策略

根据记录的采集日志,选择下次采集任务的采集策略。

1.采集策略

采集策略

clipboard.png

2.采集阈值

阈的意思是界限,故阈值又叫临界值,是指一个效应能够产生的最低值或最高值采集阈。
此处采集阈值即每个任务的上限,可以根据自己的需要设置,此处设置属于全局设置。

3.数据缓存

打开数据缓存可以将采集数据时的网页的源码记录下来,方便查看网页详细信息。
查看步骤:
①数据采集>装载记录
②选中其中一条记录,右击打开缓存数据

查看缓存数据

clipboard.png

③网页数据缓存文本

数据缓存文本

clipboard.png

4.装载策略

选择装载到日志列表的内容,即历史数据。含义如下:

clipboard.png

5.加载日志宏

筛选符合条件的日志,对采集策略进行补充。

三,任务装载

1.任务装载顺序

设置采集过程中,日志列表中对于各任务排列的顺序。
①顺序优先:按照采集任务列表的顺序,采集各列表任务的数据。
②负载均衡:打乱任务采集顺序,同时采集各任务的数据链接。优点是可以降低被网站封锁IP的风险,同时可以提高采集效率。

2.新任务装载方式

新采集任务是否同步装载。即用户可以选择对新采集任务进行同步装载也可以选择异步装载。
①同步:同步装载是指将所有链接加载完成之后同时采集。
②异步:异步装载是指加载一部分链接采集一部分,不需要全部加载完成之后再采集。

3.运行列表排重

勾选可对运行列表中的采集任务进行排重,减少运行工作量,提高运行效率。

4.从缓存加载网页

若先前在采集策略中勾选了数据缓存,可以从中加载网页。

转载地址:http://tqvpx.baihongyu.com/

你可能感兴趣的文章
Xcode 调试方法总结
查看>>
jquery获取元素到屏幕底的可视距离
查看>>
15道简单算法题
查看>>
ENDNOTE使用方法(转发)
查看>>
汉诺塔--递归和非递归实现
查看>>
2019春总结作业
查看>>
Cherokee 1.0.13 发布
查看>>
axis调用webservice的简单方法
查看>>
could not initialize proxy - no Session
查看>>
计算机数制和运算的一点总结.
查看>>
web容器启动,获取spring bean
查看>>
第二冲刺阶段第十一天
查看>>
机器语言的介绍
查看>>
UML系列 (五) 为什么要用UML建模之建模的重要性
查看>>
http协议和https协议
查看>>
811. Subdomain Visit Count
查看>>
log4j使用总结
查看>>
JS对JSON的操作总结 (转)
查看>>
强制转换原始字符串python (转)
查看>>
[数据结构和算法]快速排序笔记
查看>>