1.翻开机车采集软件。
该页面采集启示URL列表页面,依据页面规则提取采集规则。
您能够选择自动获取地址链接或手动设置规则来获取它。个人倡议手动设置规则获取,这样会更精确。
过滤就是一定不能包含xxx的存在,必需包含xxx的存在。比方我们珍藏一个页面,会有很多后缀为aspx的链接,这些链接也存在于html的后缀中。假如我们只想搜集html的链接,能够填写必需包含,这样html搜集的链接的火车头就会自动过滤掉aspx,只留下html的链接。
2.内容页面汇合
规则太多了。正常采集的话,在目的内容页面的源代码中填入你想要的内容就能够了。能够前后截取或者运用常规提取。
分页就像一个内容页面。它将存在于下一页。写入分页规则时,会自动搜集分页内容。
设置,比方问答,会有很多人答复。假如我们想搜集一切用户的答案,我们将设置规则,然后
假如选中循环,默许状况下,它将删除当前内容页面的一切匹配内容。
关联多个页面等。都很灵敏,但是没有系统的教程。
3.内容发布
发布内容需求写采集模块或者网上有很多关于开源cms的模块,比方wp、zblog、易游、帝国等等。
4.机车的其他设置
能够选择任务的运转线程和时间。线程数是指多个线程的运转,能够同时搜集。
Http恳求设置是能够填充cookie,ua,header的设置。
文件下载是在珍藏的时分填写图片下载。
Ftp文件上传到这里,需求在Pagoda或者ftp空间填写账号的密码地址。
设置代理人填写您的代理人。我普通喜欢直接用当地代理。
插件包括内容处置插件、恳求http插件、下载处置插件等等。
扫除设置是对搜集内容的自动过滤。
能够选择先珍藏后发布,也能够选择珍藏和发布同时停止。
其他设置根本没用,但我不能依据个人需求运用。