来源:蜘蛛抓取(WebSpider)
时间:2015-09-17 10:35
标签:
web 页面数据反爬
用execute_script方法(用executeScript)方法执行 window.performance.timing。 一般来说,下面的值都是可以拿到的connectEnd 6connectStart 6domComplete 7domContentLoadedEventEnd 6domContentLoadedEventStart 9domInteractive 2domLoading 2domainLookupEnd 4domainLookupStart 4fetchStart 6loadEventEnd 5loadEventStart 7navigationStart 6 要拿请求发送时建立连接的时间,那么就用connectEnd-connectStart就可以了。 下图说明了具体的指标参数的意义。这里就不铝恕1310人阅读
BreadthCrawler是WebCollector最常用的爬取器之一,依赖文件系统进行爬取信息的存储。这里以BreadthCrawler为例,对WebCollector的爬取配置进行描述:
import cn.edu.hfut.dmic.webcollector.crawler.BreadthC
import cn.edu.hfut.dmic.webcollector.model.P
import java.net.InetSocketA
import java.net.P
public class MyCrawler extends BreadthCrawler{
/*在visit方法里定义自己的操作*/
public void visit(Page page) {
System.out.println(&URL:&+page.getUrl());
System.out.println(&Content-Type:&+page.getResponse().getContentType());
System.out.println(&Code:&+page.getResponse().getContentType());
System.out.println(&-----------------------------&);
public static void main(String[] args) throws Exception{
MyCrawler crawler=new MyCrawler();
/*配置爬取合肥工业大学网站*/
crawler.addSeed(&http://www./ch/&);
crawler.addRegex(&http://.*hfut\\.edu\\.cn/.*&);
/*设置保存爬取记录的文件夹*/
crawler.setCrawlPath(&crawl_hfut&);
/*设置线程数*/
crawler.setThreads(50);
/*设置爬虫是否为断点爬取*/
crawler.setResumable(false);
/*设置代理服务器*/
Proxy proxy=new Proxy(Proxy.Type.HTTP, new InetSocketAddress(&14.18.16.67&,80));
crawler.setProxy(proxy);
/*设置User-Agent*/
crawler.setUseragent(&Mozilla/5.0 (X11; U Linux i686; rv:26.0) Gecko/ Firefox/26.0&);
/*设置Cookie*/
crawler.setCookie(&......&);
/*进行深度为5的爬取*/
crawler.start(5);
这里解释一下,setCrawlPath是BreadthCrawler特有的,用于设定存储爬取记录的文件夹,如果不指定,默认使用crawl文件夹作为爬取记录文件夹。
如果使用断点模式,要保证同一个爬虫的爬取使用相同的CrawlPath,因为爬取记录就是靠CrawlPath存储的。
版权声明:本文为博主原创文章,未经博主允许不得转载。
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:132507次
积分:2085
积分:2085
排名:第9980名
原创:70篇
转载:10篇
评论:94条
(2)(1)(3)(1)(1)(1)(2)(3)(6)(11)(3)(6)(3)(8)(8)(2)(5)(12)(3)站内网址搜索
本页最后更新: 12:24:42
【欢迎来到:《webconfs》/ 】
网站分类:
网站名称:
网站地址:
站长邮箱:
站长QQ:
收录时间:
报告错误:
欢迎来到:《webconfs》/ 已报错(0)次,打不开请
收录查询:
数据统计:
今日点入:0 总点入:0 总点出:2
网站简介:
<TD vAlign=top colspan=是国外比较著名的搜索引擎优化网站,主要是为大家提供一些搜索引擎优化工具,比如著名的关键词密度检查器、蜘蛛模拟器等,其中蜘蛛模拟器不仅给出了抓取的问题内容,还给大家提供了爬行的链接&&Spidered Links,主要搜索引擎google,baidu,msn,yahoo收录分析等。为国外网站,有时候可能会打不开。全英文的,可以使用google浏览器打开,直接翻译页面。webconfs的 返回链接锚文本分析(Back link Anchor Text Analysis) , 这是一个专门分析网站外链所使用的锚文本的工具,可以用来查看对手网站外链所使用的锚文本状况,以便作为自己的参考!webconfs的Back link Builder ,这是一款很简单的外链资源查找工具,输入你的关键词,工具会自动为你查找含有包含你关键词的可能链接资源,主要利用&Add site&,&Add URL&,&Submit link&等等特征符进行列举,等于是SoloSEO Link Search Tool的一个进化版。webconfs的 Backlink Summary ,是 基本的网站外链挖掘工具。
【最新来访网站】
?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&
【相关点出网站】
?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&?&
免责声明:888导航以上所有广告内容均为赞助商广告提供,对其经营行为本网站恕不负责。Copyright&
All Right Reserved
强烈建议使用 IE5.0 以上浏览器 分辨率苹果要进入搜索市场?网络爬虫机器人页面正式曝光
作者:周小白
苹果介绍网络爬虫的页面
【TechWeb报道】5月7日消息,苹果在官网的技术支持网站中,添加了一个新页面,来具体介绍其首款网络爬虫机器人。
据悉,谷歌和必应等搜索引擎,都是通过使用网络爬虫机器人,来自动扫描互联网中的页面和信息,以在页面变更时添加所以并提供信息。
据透露,苹果的网络爬虫名为&Applebot&,早就存在,只是该公司此前从未披露过任何细节。苹果此次证实该网络爬虫的存在,或许意味着,该公司未来将全面进军互联网搜索市场。
今年2月,苹果公司发布了一份招聘启事,此次招聘的描述的是&Apple&Search工程项目经理&。该职位工作地点在旧金山,要求项目经理监管&支持数百万用户的搜索平台的&后端运作。苹果指出能够胜任该工作的人将&成为改变人们使用电脑和移动设备革命的一部分。&
而早在2002年晚些时候,苹果公司招聘了搜索专家William&Stasior,去年有iOS7开发者在苹果服务器中发现了一个网页机器人。当时国外分析师Gene&Munster表示苹果有70%的可能会进入移动搜索领域。
值得注意的是,苹果与谷歌之间iOS平台默认搜索引擎合作协议即将到期,这或许也给予了苹果进入搜索市场一个契机。(周小白)
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
↑扫描二维码
想在手机上看科技资讯和科技八卦吗?想第一时间看独家爆料和深度报道吗?请关注TechWeb官方微信公众帐号:1.用手机扫左侧二维码;2.在添加朋友里,搜索关注TechWeb。
相关的资讯有:
相关的博文有:
昨天上午小米官方微博宣布将会在9月22日发布小米4c,不过手机还没发布昨天晚间就已经...
昨晚,小米手环制造商华米科技举办新品发布会,发布一款自己的独立手环品牌“Amazfit...
尽管骁龙 810 饱受各种发热严重的指责,但仍然有不少手机厂商为自家的高端产品选择了...
联想刚刚否认重返OEM代工的消息,中兴便确认为新一代Yota Phone代工。随着手机市场的...
据《印度时报》报道,消息人士透露,中国智能手机制造商OPPO正与台湾电子设备代工厂富...
日前,中国信息通信研究院(CAICT)发布了2015年8月份国内手机市场运行分析报告。报告...
今天凌晨1点,苹果正式向国内用户推送了iOS 9的正式版本,iOS 9正式版新系统大小只需1...
苹果如约正式推送了iOS9正式版固件更新,不过watchOS 2却因为出现了某些关键bug被延期...
苹果正式推送了iOS9正式版更新,相信此时此刻还有不少小伙伴正在下载iOS9正式版,顺便...
《Hello Kitty快乐消》是一款画面清新、充满趣味的连线消除玩法手游。游戏以可爱萌动......
相比正常广告投放、请代言人等传统的营销方式,刷榜已经成为“性价比”最高的推广方式......
进入手游时代的回合制在玩法上并未有太大的创新,依然是走着还原端游玩法的路子加上一......
本次更新不仅将对各门派技能进行调整,更有2015欢乐季活动火爆开启!下面就和小编一起......
Copyright (C)
All rights reserved.
京公网安备号
请选择一张图片分享
要转发到新浪微博,请
要转发到QQ空间,请