火车头采集器v8教程怎么使用dll插件

2010版采集器插件使用教程
所属分类:
发布用户:火车头
阅读点数:不需要另行扣点
浏览次数:0
更新时间: 10:00:26
下载地址&&
火车采集器2010版增加了插件的使用.用户可以在多个地方使用插件来进行扩展开发.目前插件的使用有如下几个地方
插件的执行是这样的,比如默认页的采集,采集器先获取到网页源码,然后将网页源码交给插件,插件处理完成后,再将数据交给采集器,采集器这时再对插件处理过的数据进行分析处理.提取标签,下载图片等.
我以一个默认页的示例说明一下如何使用PHP插件.我们以采的分页为例.
我们先看一下,这个分页里是用脚本控制生成的.采集器无法接获取的.其中,生成分页的代码有这一段.
//去到第几页
function goto_page(pageno){
pageno = parseInt(pageno);
if((pageno & 1) || (pageno & 9)){
//加入 forward_
if(''.blank()){
window.location.href = '';
window.location.href = '/D5000FEF139_'+pageno+'.html';
这时有一个数字9,代码有多少个分页.而分页的格式为 '/D5000FEF139_'+pageno+'.html';
这时,我们要用插件来生成分页代码,采集器将识别这个代码并获取到分页.怎么来生成分页呢?
很简单,插件首先是获取了当前默认页的地址,如 ,而分页的规则是在.html前加_2,_3等.我们就可以直接用循环和替换生成分页代码了.我写的代码如下.
if($LabelArray['Html']!=&&&&$LabelArray['PageType']=='Content')
$html=$LabelArray['Html'];
& preg_match(&/\(pageno & (\d+)\)/i&,$html, $matches);
& $pagenum=$matches[1];
& if($pagenum&2)
&& $return=&&locoypages&&;
&& for($i=2;$i&=$$i++)
&&& $url=str_replace(&.html&,'_'.$i.'.html',$LabelUrl);
&&& $return.=&&a href='&.$url.&'&&/a&&;
&& $return.='&/locoypages&';
&& $LabelArray['Html'].=$
echo serialize($LabelArray);
首先,需要注意的是,保存网页源码的是 $LabelArray['Html'] .保存网页类型的是$LabelArray['PageType'].这几个参数在采网址,采内容,采多页处是一样的.我们使用插件测试管理器.得到如下结果.
看采集器里的设置
(58.04 KB)
这样,我们就通过插件改变程序的源代码,从而实现了采集脚本多页的功能.
注意,使用测试版的用户,在当前时间下载前的,请再下载最新版进行测试.
资源详细参数细节预览现在位置: &
emlog火车头采集模块自定义采集标签的...
发布于日  分类:
 浏览:1400 人次   
首先声明:此功能必须配合笔者发布的《》一文中提供的模块才会有效:
1、在采集内容规则中点击添加按钮添加自定义标签项,如下图所示:
第二、到此可以在提取数据方式中设置需要截取的标签范围或者在数据处理项中添加一个空内容缺省默认标签,都可以的,大家根据自己需要添加吧!
原来,画画也可以画的那么... 01:50
逝者已矣,生者何如?年轻... 22:43
今天很高兴,觉得网站规划... 02:00
维护了下友链,发现有人偷... 22:55
拿着卖白菜的钱,操着卖白... 17:49
垃圾评论又来了啊! 15:28哪个论坛系统自带采集插件的 ?火车头那些采集器我都不会用_百度知道
哪个论坛系统自带采集插件的 ?火车头那些采集器我都不会用
我有更好的答案
按默认排序
//v.youku.html
采集器的相关知识
您可能关注的推广
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
火车头采集器应该如何使用
下载积分:900
内容提示:
文档格式:PDF|
浏览次数:0|
上传日期: 10:05:37|
文档星级:
该用户还上传了这些文档
火车头采集器应该如何使用.PDF
官方公共微信

我要回帖

更多关于 火车头采集器视频教程 的文章

 

随机推荐