新手，想问java的java爬虫原理是什么原理

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>java >>新手，想问java的java爬虫原理是什么原理

新手，想问java的java爬虫原理是什么原理

来源：蜘蛛抓取(WebSpider) 时间：2016-11-06 08:26 标签： java 网络爬虫

查看: 10578|回复: 1
爬虫的常见陷阱以及Java的爬虫思路
主题帖子积分
中级会员, 积分 739, 距离下一级还需 261 积分
中级会员, 积分 739, 距离下一级还需 261 积分
1.网络爬虫的基本原理是什么？
2.什么是Jsoup？
3.爬虫的难点都有什么？
本文是这篇文章《Java实现爬虫给App提供数据（Jsoup 网络爬虫）》 http://blog.csdn.net/never_cxb/article/details/ 的衍生。当时面阿里的时候，聊到我做新闻 App 的时候，使用 Jsoup 爬虫，面试官随即问我对爬虫了解多深。所以稍微深入了解爬虫底层原理，后期打算看一下 Jsoup 底层实现。
笔者做的爬虫侧重于对于网页内容的提取，url 遵守一定概率（比如末尾数字递增）。
比如 http://blog.csdn.net/never_cxb/article/details/ 是一篇博客的地址，把数字换成就可以得到另一篇博客的地址http://blog.csdn.net/never_cxb/article/details/。
爬虫的基本思路如下
1. 根据 Url 获取相应页面的 Html 代码
2. 利用正则匹配或者 Jsoup 等库解析 Html 代码，提取需要的内容
3. 将获取的内容持久化到数据库中
4. 处理好中文字符的编码问题，可以采用多线程提高效率
二、Jsoup 简介
关于 Html 和 Jsoup 的基本介绍请看这篇文章 /p/1484.html，写得很好。
从 Jsoup 的 Api 可以看出，Element 继承自 Node。
根据 DOM，HTML 文档中的每个成分都是一个Node。Node 之间有等级关系，父 Node、子 Node、兄弟 Node 等等。
Joup 其实是 Html 解析器，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。如果不使用 Jsoup 解析，也可以利用正则匹配找出 Html 中需要的内容。
如何获取 url 呢？有一种方法从文章列表中获取，比如下面的博客目录视图中，文章的对于的 html代码中可以获取href=”/never_cxb/article/details/”，标题为Java实现爬虫给App提供数据（Jsoup 网络爬虫）。
[AppleScript] 纯文本查看复制代码&h1&
&span class=&link_title&&&a href=&/never_cxb/article/details/&&
&font color=&red&&[置顶]&/font&
Java实现爬虫给App提供数据（Jsoup 网络爬虫）
&/a&&/span&
1.png (522.7 KB, 下载次数: 2)
16:17 上传
三、爬虫基本原理
更宽泛意义上的爬虫侧重于如果在大量的 url 中寻找出高质量的资源，如何在有限的时间内访问更多页面等等。网络爬虫的基本工作流程如下：
1.首先选取一部分精心挑选的种子URL；
2.将这些URL放入待抓取URL队列；
3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。
4.分析已抓取URL队列中的URL，分析页面里包含的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。
有几个概念，一个是发http请求，一个是正则匹配你感兴趣的链接，一个是多线程，另外还有两个队列。
来源于该文章的一张图
2.png (96.28 KB, 下载次数: 2)
16:17 上传
四、爬虫难点1 环路
网络爬虫有时候会陷入循环或者环路中，比如从页面 A，A 链接到页面 B，B 链接页面C，页面 C 又会链接到页面 A。这样就陷入到环路中。
消耗网络带宽，无法获取其他页面对 Web 服务器也是负担，可能击垮该站点，可能阻止正常用户访问该站点即使没有性能影响，但获取大量重复页面也导致数据冗余
1. 简单限定爬虫的最大循环次数，对于某 web 站点访问超过一定阈值就跳出，避免无限循环
2. 保存一个已访问 url 列表，记录页面是否被访问过的技术
二叉树和散列表，快速判定某个 url 是否访问过存在位图
就是 new int[length]，然后把第几个数置为1，表示已经访问过了。可不可以再优化，int 是32位，32位可以表示32个数字。HashCode 会存在冲突的情况，两个 url 映射到同一个存在位上，冲突的后果是某个页面被忽略（这比死循环的恶作用小）保存检查
一定要即使把已访问的 url 列表保存在硬盘上，防止爬虫崩溃，内存里的数据会丢失集群，分而治之
多台机器一起爬虫，可以根据 url 计算 hashcode，然后根据 hashcode 映射到相应机器的 id （第0台、第1台、第2台等等）
难点2 URL别名
有些 url 名称不一样，但是指向同一个资源。
该表格来自于《HTTP 权威指南》
URl 1URL 2什么时候是别名/bar.html:80/bar.html默认端口是80/~fred/%7Ffred%7F与~相同/x.html#top/x.html#middle%7F与~相同//服务器是大小写无关/index.html默认页面为 index.html/index.html209.123.123/index.htmlip和域名相同
难点3 动态虚拟空间
比如日历程序，它会生成一个指向下一月的链接，真正的用户是不会不停地请求下个月的链接的。但是不了解这内容特性的爬虫蜘蛛可能会不断向这些资源发出无穷的请求。
一般策略是深度优先或者广度优先。有些技术能使得爬虫蜘蛛有更好的表现
广度优先的爬行，避免深度优先陷入某个站点的环路中，无法访问其他站点。限制访问次数，限定一段时间内机器人可以从一个 web 站点获取的页面数量内容指纹，根据页面的内容计算出一个校验和，但是动态的内容（日期，评论数目）会阻碍重复检测维护黑名单人工监视，特殊情况发出邮件通知动态变化，根据当前热点新闻等等规划化 url，把一些转义字符、ip 与域名之类的统一限制 url 大小，环路可能会使得 url 长度增加，比如/index.html, /folder/index,html, /folder/folder/index.html …
全文索引就是一个数据库，给它一个单词，它可以立刻提供包含那个单词的所有文字。创建了索引之后，就不必对文档自身进行扫描了。
比如文章 A 包含了 Java、学习、程序员
文章 B 包含了 Java 、Python、面试、招聘
如果搜索 Java，可以知道得到文章 A 和文章 B，而不必对文章 A、B 全文扫描。
复习 Python 爬虫
自己曾实现了Python 爬虫，统计学校论坛上男女用户各占多少。
Python实现爬虫统计学校BBS男女比例（一）前期准备、方案分析
http://blog.csdn.net/never_cxb/article/details/Python实现爬虫统计学校BBS男女比例（二）多线程爬虫
http://blog.csdn.net/never_cxb/article/details/Python实现爬虫统计学校BBS男女比例（三）数据处理
http://blog.csdn.net/never_cxb/article/details/
我当时做的思路是 get 请求获取 html 源代码，对 html 用字符串匹配（前后多加一些限定单词进行正则匹配比如em&上次发表时间&/em&后面跟的是活动时间）。
回过头来看，可能解析Dom 树可能更优雅一些。
主题帖子积分
注册会员, 积分 99, 距离下一级还需 101 积分
注册会员, 积分 99, 距离下一级还需 101 积分
站长推荐 /4
云计算hadoop视频大全(新增 yarn、flume|storm、hadoop一套视频
等待验证会员请验证邮箱
新手获取积分方法
技术类问答，解决学习openstack，hadoop生态系统中遇到的问题
Powered by网络爬虫（Spider）Java实现原理
“网络蜘蛛”或者说“网络爬虫”，是一种能访问网站并跟踪链接的程序，通过它，可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”，我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”，并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。
Java语言在此非常适合构建一个“蜘蛛”程序，其内建了对HTTP协议的支持，通过它可以传输大部分的网页信息；其还内建了一个HTML解析器，正是这两个原因使Java语言成为本文构建“蜘蛛”程序的首选。
例1的示例程序，将会扫描一个网站，并寻找死链接。
*如何使用？
使用这个程序时需先输入一个URL并单击“Begin”按钮，程序开始之后，“Begin”按钮会变成“Cancel”按钮。在程序扫描网站期间，会在“Cancel”按钮之下显示进度，且在检查当前网页时，也会显示相关正常链接与死链接的数目，死链接将显示在程序底部的滚动文本框中。单击“Cancel”按钮会停止扫描过程，之后可以输入一个新的URL；如果期间没有单击“Cancel”，程序将会一直运行直到查找完所有网页，此后，“Cancel”按钮会再次变回“Begin”，表示程序已停止。
下面将演示示例程序是如何与可复用“Spider”类交互的，示例程序包含在例1的CheckLinks类中，这个类实现了ISpiderReportable接口，如例2所示，正是通过这个接口，蜘蛛类才能与示例程序相交互。在这个接口中，定义了三个方法：
第一个方法是“spiderFoundURL”，它在每次程序定位一个URL时被调用，如果方法返回true，表示程序应继续执行下去并找出其中的链接；
第二个方法是“spiderURLError”，它在每次程序检测URL导致错误时被调用（如“404 页面未找到”）；
第三个方法是“spiderFoundEMail”，它在每次发现电子邮件地址时被调用。有了这三个方法，Spider类就能把相关信息反馈给创建它的程序了。
在begin方法被调用后，“蜘蛛”就开始工作了；为允许程序重绘其用户界面，“蜘蛛”是作为一个单独的线程启动的。点击“Begin”按钮会开始这个后台线程，当后台线程运行之后，又会调用“CheckLinks”类的run方法，而run方法是由Spider对象实例化时启动的，如下所示：spider = new Spider(this);spider.clear();base = new URL(url.getText());spider.addURL(base);spider.begin();
首先，一个新的Spider对象被实例化，在此，需要传递一个“ISpiderReportable”对象给Spider对象的构造函数，因为“CheckLinks”类实现了“ISpiderReportable”接口，只需简单地把它作为当前对象（可由关键字this表示）传递给构造函数即可；其次，在程序中维护了一个其访问过的URL列表，而“clear”方法的调用则是为了确保程序开始时URL列表为空，程序开始运行之前必须添加一个URL到它的待处理列表中，此时用户输入的URL则是添加到列表中的第一个，程序就由扫描这个网页开始，并找到与这个起始URL相链接的其他页面；最后，调用“begin”方法开始运行“蜘蛛”，这个方法直到“蜘蛛”工作完毕或用户取消才会返回。
当“蜘蛛”运行时，可以调用由“ISpiderReportable”接口实现的三个方法来报告程序当前状态，程序的大部分工作都是由“spiderFoundURL”方法来完成的，当“蜘蛛”发现一个新的URL时，它首先检查其是否有效，如果这个URL导致一个错误，就会把它当作一个死链接；如果链接有效，就会继续检查它是否在一个不同的服务器上，如果链接在同一服务器上，“spiderFoundURL”返回true，表示“蜘蛛”应继续跟踪这个URL并找出其他链接，如果链接在另外的服务器上，就不会扫描是否还有其他链接，因为这会导致“蜘蛛”不断地浏览Internet，寻找更多、更多的网站，所以，示例程序只会查找用户指定网站上的链接。构造Spider类前面已经讲了如何使用Spider类，请看例3中的代码。使用Spider类及“ISpiderReportable”接口能方便地为某一程序添加“蜘蛛”功能，下面继续讲解Spider类是怎样工作的。Spider类必须保持对其访问过的URL的跟踪，这样做的目的是为了确保“蜘蛛”不会访问同一URL一次以上；进一步来说，“蜘蛛”必须把URL分成三组：
第一组存储在“workloadWaiting”属性中，包含了一个未处理的URL列表，“蜘蛛”要访问的第一个URL也存在其中；
第二组存储在“workloadProcessed”中，它是“蜘蛛”已经处理过且无需再次访问的URL；
第三组存储在“workloadError”中，包含了发生错误的URL。Begin方法包含了Spider类的主循环，其一直重复遍历“workloadWaiting”，并处理其中的每一个页面，当然我们也想到了，在这些页面被处理时，很可能有其他的URL添加到“workloadWaiting”中，所以，begin方法一直继续此过程，直到调用Spider类的cancel方法，或“workloadWaiting”中已不再剩有URL。这个过程如下：cancel =while ( !getWorkloadWaiting().isEmpty() && !cancel ) {Object list[] = getWorkloadWaiting().toArray();for ( int i=0; (iprocessURL((URL)list[i]);}当上述代码遍历“workloadWaiting”时，它把每个需处理的URL都传递“processURL”方法，而这个方法才是真正读取并解析URL中HTML信息的。读取并解析HTML
Java同时支持访问URL内容及解析HTML，而这正是“processURL”方法要做的。在Java中读取URL内容相对还比较简单，下面就是“processURL”方法实现此功能的代码：URLConnection connection = url.openConnection();if ( (connection.getContentType()!=null) &&!connection.getContentType().toLowerCase().startsWith("text/") ) {getWorkloadWaiting().remove(url);getWorkloadProcessed().add(url);log("Not processing because content type is: " +connection.getContentType() );}首先，为每个传递进来的变量url中存储的URL构造一个“URLConnection”对象，因为网站上会有多种类型的文档，而“蜘蛛”只对那些包含HTML，尤其是基于文本的文档感兴趣。前述代码是为了确保文档内容以“text/”打头，如果文档类型为非文本，会从等待区移除此URL，并把它添加到已处理区，这也是为了保证不会再次访问此URL。在对特定URL建立连接之后，接下来就要解析其内容了。下面的代码打开了URL连接，并读取内容：
InputStream is = connection.getInputStream();
Reader r = new InputStreamReader(is);
现在，我们有了一个Reader对象，可以用它来读取此URL的内容，对本文中的“蜘蛛”来说，只需简单地把其内容传递给HTML解析器就可以了。本例中使用的HTML解析器为Swing HTML解析器，其由Java内置，但由于Java对HTML解析的支持力度不够，所以必须重载一个类来实现对HTML解析器的访问，这就是为什么我们要调用“HTMLEditorKit”类中的“getParser”方法。但不幸的是，Sun公司把这个方法置为protected，唯一的解决办法就是创建自己的类并重载“getParser”方法，并把它置为public，这由“HTMLParse”类来实现，请看例4：
import javax.swing.text.html.*;
public class HTMLParse extends HTMLEditorKit {
public HTMLEditorKit.Parser getParser()
return super.getParser();
这个类用在Spider类的“processURL”方法中，我们也会看到，Reader对象会用于读取传递到“HTMLEditorKit.Parser”中网页的内容：
HTMLEditorKit.Parser parse = new HTMLParse().getParser();
parse.parse(r,new Parser(url),true);
请留意，这里又构造了一个新的Parser类，这个Parser类是一个Spider类中的内嵌类，而且还是一个回调类，它包含了对应于每种HTML tag将要调用的特定方法。在本文中，我们只需关心两类回调函数，它们分别对应一个简单tag（即不带结束tag的tag，如
）和一个开始tag，这两类回调函数名为“handleSimpleTag”和“handleStartTag”。因为每种的处理过程都是一样的，所以“handleStartTag”方法仅是简单地调用“handleSimpleTag”，而“handleSimpleTag”则会负责从文档中取出超链接，这些超链接将会用于定位“蜘蛛”要访问的其他页面。在当前tag被解析时，“handleSimpleTag”会检查是否存在一个“href”或超文本引用：
String href = (String)a.getAttribute(HTML.Attribute.HREF);
if( (href==null) && (t==HTML.Tag.FRAME) )
href = (String)a.getAttribute(HTML.Attribute.SRC);
if ( href==null )
如果不存在“href”属性，会继续检查当前tag是否为一个Frame，Frame会使用一个“src”属性指向其他页面，一个典型的超链接通常为以下形式：
上面链接中的“href”属性指向其链接到的页面，但是“linkedpage.html”不是一个地址，它只是指定了这个Web服务器上一个页面上的某处，这称为相对URL，相对URL必须被解析为绝对URL，而这由以下代码完成：
URL url = new URL(base,str);
这又会构造一个URL，str为相对URL，base为这个URL上的页面，这种形式的URL类构造函数可构造一个绝对URL。在URL变为正确的绝对形式之后，通过检查它是否在等待区，来确认此URL是否已经被处理过。如果此URL没有被处理过，它会添加到等待区，之后，它会像其他URL一样被处理。
相关的代码如下所示：
1.CheckLinks.java
import java.awt.*;
import javax.swing.*;
import java.net.*;
import java.io.*;public class CheckLinks extends javax.swing.JFrame implements
Runnable,ISpiderReportable {
public CheckLinks()
//{{INIT_CONTROLS
setTitle("Find Broken Links");
getContentPane().setLayout(null);
setSize(405,288);
setVisible(true);
label1.setText("Enter a URL:");
getContentPane().add(label1);
label1.setBounds(12,12,84,12);
begin.setText("Begin");
begin.setActionCommand("Begin");
getContentPane().add(begin);
begin.setBounds(12,36,84,24);
getContentPane().add(url);
url.setBounds(108,36,288,24);
errorScroll.setAutoscrolls(true);
errorScroll.setHorizontalScrollBarPolicy(javax.swing.
ScrollPaneConstants.HORIZONTAL_SCROLLBAR_ALWAYS);
errorScroll.setVerticalScrollBarPolicy(javax.swing.
ScrollPaneConstants.VERTICAL_SCROLLBAR_ALWAYS);
errorScroll.setOpaque(true);
getContentPane().add(errorScroll);
errorScroll.setBounds(12,120,384,156);
errors.setEditable(false);
errorScroll.getViewport().add(errors);
errors.setBounds(0,0,366,138);
current.setText("Currently Processing: ");
getContentPane().add(current);
current.setBounds(12,72,384,12);
goodLinksLabel.setText("Good Links: 0");
getContentPane().add(goodLinksLabel);
goodLinksLabel.setBounds(12,96,192,12);
badLinksLabel.setText("Bad Links: 0");
getContentPane().add(badLinksLabel);
badLinksLabel.setBounds(216,96,96,12);
//{{INIT_MENUS
//{{REGISTER_LISTENERS
SymAction lSymAction = new SymAction();
begin.addActionListener(lSymAction);
static public void main(String args[])
(new CheckLinks()).setVisible(true);
public void addNotify()
// Record the size of the window prior to calling parent's
// addNotify.
Dimension size = getSize();
super.addNotify();
if ( frameSizeAdjusted )
frameSizeAdjusted =
// Adjust size of frame according to the insets and menu bar
Insets insets = getInsets();
javax.swing.JMenuBar menuBar = getRootPane().getJMenuBar();
int menuBarHeight = 0;
if ( menuBar != null )
menuBarHeight = menuBar.getPreferredSize().
setSize(insets.left + insets.right + size.width, insets.top +
insets.bottom + size.height +
menuBarHeight);
// Used by addNotify
boolean frameSizeAdjusted =
//{{DECLARE_CONTROLS
javax.swing.JLabel label1 = new javax.swing.JLabel();
javax.swing.JButton begin = new javax.swing.JButton();
javax.swing.JTextField url = new javax.swing.JTextField();
javax.swing.JScrollPane errorScroll =
new javax.swing.JScrollPane();
javax.swing.JTextArea errors = new javax.swing.JTextArea();
javax.swing.JLabel current = new javax.swing.JLabel();
javax.swing.JLabel goodLinksLabel = new javax.swing.JLabel();
javax.swing.JLabel badLinksLabel = new javax.swing.JLabel();
//{{DECLARE_MENUS
protected Thread backgroundT
protected S
protected URL
protected int badLinksCount = 0;
protected int goodLinksCount = 0;
class SymAction implements java.awt.event.ActionListener {
public void actionPerformed(java.awt.event.ActionEvent event)
Object object = event.getSource();
if ( object == begin )
begin_actionPerformed(event);
void begin_actionPerformed(java.awt.event.ActionEvent event)
if ( backgroundThread==null ) {
begin.setLabel("Cancel");
backgroundThread = new Thread(this);
backgroundThread.start();
goodLinksCount=0;
badLinksCount=0;
spider.cancel();
public void run()
errors.setText("");
spider = new Spider(this);
spider.clear();
base = new URL(url.getText());
spider.addURL(base);
spider.begin();
Runnable doLater = new Runnable()
public void run()
begin.setText("Begin");
SwingUtilities.invokeLater(doLater);
backgroundThread=
} catch ( MalformedURLException e ) {
UpdateErrors err = new UpdateErrors();
err.msg = "Bad address.";
SwingUtilities.invokeLater(err);
public boolean spiderFoundURL(URL base,URL url)
UpdateCurrentStats cs = new UpdateCurrentStats();
cs.msg = url.toString();
SwingUtilities.invokeLater(cs);
if ( !checkLink(url) ) {
UpdateErrors err = new UpdateErrors();
err.msg = url+"(on page " + base + ")\n";
SwingUtilities.invokeLater(err);
badLinksCount++;
goodLinksCount++;
if ( !url.getHost().equalsIgnoreCase(base.getHost()) )
public void spiderURLError(URL url)
protected boolean checkLink(URL url)
URLConnection connection = url.openConnection();
connection.connect();
} catch ( IOException e ) {
public void spiderFoundEMail(String email)
class UpdateErrors implements Runnable {
public void run()
errors.append(msg);
class UpdateCurrentStats implements Runnable {
public void run()
current.setText("Currently Processing: " + msg );
goodLinksLabel.setText("Good Links: " + goodLinksCount);
badLinksLabel.setText("Bad Links: " + badLinksCount);
2.ISpiderReportable .java
import java.net.*;
interface ISpiderReportable {
public boolean spiderFoundURL(URL base,URL url);
public void spiderURLError(URL url);
public void spiderFoundEMail(String email);}
3.Spider .java
import java.util.*;
import java.net.*;
import java.io.*;
import javax.swing.text.*;
import javax.swing.text.html.*;
public class Spider {
protected Collection workloadError = new ArrayList(3);
protected Collection workloadWaiting = new ArrayList(3);
protected Collection workloadProcessed = new ArrayList(3);
protected ISpiderR
protected boolean cancel =
public Spider(ISpiderReportable report)
this.report =
public Collection getWorkloadError()
return workloadE
public Collection getWorkloadWaiting()
return workloadW
public Collection getWorkloadProcessed()
return workloadP
public void clear()
getWorkloadError().clear();
getWorkloadWaiting().clear();
getWorkloadProcessed().clear();
public void cancel()
public void addURL(URL url)
if ( getWorkloadWaiting().contains(url) )
if ( getWorkloadError().contains(url) )
if ( getWorkloadProcessed().contains(url) )
log("Adding to workload: " + url );
getWorkloadWaiting().add(url);
public void processURL(URL url)
log("Processing: " + url );
// get the URL's contents
URLConnection connection = url.openConnection();
if ( (connection.getContentType()!=null) &&
!connection.getContentType().toLowerCase().startsWith("text/") ) {
getWorkloadWaiting().remove(url);
getWorkloadProcessed().add(url);
log("Not processing because content type is: " +
connection.getContentType() );
// read the URL
InputStream is = connection.getInputStream();
Reader r = new InputStreamReader(is);
// parse the URL
HTMLEditorKit.Parser parse = new HTMLParse().getParser();
parse.parse(r,new Parser(url),true);
} catch ( IOException e ) {
getWorkloadWaiting().remove(url);
getWorkloadError().add(url);
log("Error: " + url );
report.spiderURLError(url);
// mark URL as complete
getWorkloadWaiting().remove(url);
getWorkloadProcessed().add(url);
log("Complete: " + url );
public void begin()
while ( !getWorkloadWaiting().isEmpty() && !cancel ) {
Object list[] = getWorkloadWaiting().toArray();
for ( int i=0;(i&list.length)&&!i++ )
processURL((URL)list[i]);
protected class Parser
extends HTMLEditorKit.ParserCallback {
protected URL
public Parser(URL base)
this.base =
public void handleSimpleTag(HTML.Tag t,
MutableAttributeSet a,int pos)
String href = (String)a.getAttribute(HTML.Attribute.HREF);
if( (href==null) && (t==HTML.Tag.FRAME) )
href = (String)a.getAttribute(HTML.Attribute.SRC);
if ( href==null )
int i = href.indexOf('#');
if ( i!=-1 )
href = href.substring(0,i);
if ( href.toLowerCase().startsWith("mailto:") ) {
report.spiderFoundEMail(href);
handleLink(base,href);
public void handleStartTag(HTML.Tag t,
MutableAttributeSet a,int pos)
handleSimpleTag(t,a,pos);
// handle the same way
protected void handleLink(URL base,String str)
URL url = new URL(base,str);
if ( report.spiderFoundURL(base,url) )
addURL(url);
} catch ( MalformedURLException e ) {
log("Found malformed URL: " + str );
public void log(String entry)
System.out.println( (new Date()) + ":" + entry );
4.HTMLParse .java
import javax.swing.text.html.*;
public class HTMLParse extends HTMLEditorKit {
public HTMLEditorKit.Parser getParser()
return super.getParser();
本文来自CSDN博客，转载请标明出处：
Aubergine_kang
浏览: 181046 次
来自: 北京
hao xiexie
[/flash][*][*]||||||||||||[*]|| ...
[flash=200,200][flash=200,200][ ...
引用[u][/u]引用
[flash=200,200][url][img][list] ...
(window.slotbydup=window.slotbydup || []).push({
id: '4773203',
container: s,
size: '200,200',
display: 'inlay-fix'

新手，想问java的java爬虫原理是什么原理

我要回帖

更多关于 java 网络爬虫的文章

随机推荐

新手，想问java的java爬虫原理是什么原理

我要回帖

更多关于 java 网络爬虫 的文章

随机推荐

更多关于 java 网络爬虫的文章