什么品牌的潜水泵好性能比较好的品牌有哪些?有谁知道吗

用Java抓取RSS生成Mobi文件发送到Kindle
最近写了个小工具,通过抓取RSS生成适合Kindle展示的Mobi格式的文件,并发送到Kindle 个人图书馆,也算是继续&自动化&之旅。代码前前后后写了个把月,趁着放假期间,决定把它搞定。使用方法什么的就不多说了,
最近写了个小工具,通过抓取RSS生成适合Kindle展示的Mobi格式的文件,并发送到Kindle 个人馆,也算是继续“自动化”之旅。代码前前后后写了个把月,趁着放假期间,决定把它搞定。使用方法什么的就不多说了,项目开源到Github上去了,上面有使用说明。这篇文章简单得聊聊项目本身以及总结的一些问题。项目简介首先来看看项目的组织结构图:大致分为三大部分:core:核心部分,定义了RSS相关的基本数据抽象(base)以及所有流程的接口抽象(contract)component:组件(可选),两个组件,一个是对mobi文件进行strip处理,以很好得控制最终文件的大小,另一个是邮件发送impl:对core以及component的实现。其他几个部分:util中定义了一些帮助方法,Service是程序的入口,也是各个流程接口方法的衔接与组合调用,resources(不包含在上图中)定义了一大堆各种配置。用Java写程序就是这样,你懂的。corebase包不必多说,一个RSS源大概可以分解为三个对象:一个Feed包含了N个Entry,每个Entry都包含了文本内容(desc)以及若干个Image。说说核心流程的抽象:(按照流程顺序说明,不按照图中接口顺序)AbstractConfigManager是一个抽象类,维护了项目最核心的配置文件(resources/rtms.properties),并对其中的配置完整性进行检查。IFeedLinkProvider要抓取RSS,必须要有RSS Source(RSS URL)。该接口作为Feed link 的 provider 定义了一个方法来获取所有需要抓取的链接:/**
* get parsing rss links
* @return the String array of all links
String[] getFeedLinks();IRSSParser获取到feed的链接之后,就需要去一个个parse它们,该接口定义了parse方法:/**
* parse feed with given urls
* @param urls the URL Array
* @return the BaseFeed Array
BaseFeed[] parse(URL[] urls);返回生成的Feed对象集合,由于有些RSS源不提供全文输出(只是提供一个摘要,比如看这里),所以这时候就需要一个全文输出处理,来从给定的URL获取原文IFullTxtOutput该接口定义了输出全文的协议:/**
* output full text from a entrylink
* @param entryLink the string of the entry link url
* @return the full text
String fullTextFrom(String entryLink);在parse的过程中,难免会遇到标签,我们在parse时候先对其src属性进行处理,但图片并不在此进行下载,所以需要将其先存起来,在需要下载的时候,在取出来下载,这时,我们需要一个“图片运输器“IImgTransporter该接口定义了图片的保存与获取协议:/**
* push a img obj to the image store
* @param img the instance of BaseImage
public void push(BaseImage img);
* get all image objs with the feed
* @param feed the instance of BaseFeed
* @return the map of all the images per feed
public Map getAllImageObjsWithFeed(BaseFeed feed);由于我们认为一个RSS Feed是一个基准单位(一个mobi文件以一个个feed组合而成)所以图片的获取以feed为单位整取(当然也可以粒度再细一点以feed里每个entry为基准)。如果不需要额外的功能,我们已经能够生成mobi文件了:IMobiGenerator该接口定义了生成mobi需要实现的方法:/**
* generate mobi file with a list of feeds
* @param feeds the List of BaseFeed instances
* @return return the generated mobi file path
String generate(List feeds);通过传入一个BaseFeed对象的集合,最终输出mobi文件的全路径即可。以上这些接口,定义了将RSS生成Mobi文件的最基本的流程,如果需要一些附加功能,可以有选择的实现component package中的一些接口。component该package大概提供了三个扩展:IEntryTransporter上面在说到IfullTxt的时候,我们通过实现该接口,完成了全文输出。出于效率与性能考虑,我们有必要将最近处理过的feed的一些entry“缓存”起来。这是因为,该项目有可能被构建为daily task,而有些RSS 源并不是每日更新,即便更新过,如果不多,还是会抓取到一些旧的。这时我们会先去查看这些entry是否曾经已被处理过,如果已经处理过,那么就没必要再去处理了(特别是全文输出还是很耗时的),协议:/**
* save a entry
* @param entry the instance of BaseEntry
void save(BaseEntry entry);
* check is entry exists
* @param entry the instance of BaseEntry
* @return if exists return true otherwise return false
boolean entryExists(BaseEntry entry);
* get processed entry (the func for cache entry)
* @param entry the instance of BaseEntry
* @return return the processed entry
BaseEntry getProcessedEntry(BaseEntry entry);
* get a feed's all entry (processed)
* @param feed the instance of BaseFeed
* @return the map of the feed's entries (key is entry's link)
Map getAllEntryPerFeed(BaseFeed feed);IFileStripHandler由于生成适合kindle的mobi文件,大致的手段是通过amazon提供的kindlegen命令行工具实现,但通过他生成的文件非常大(大到几十兆)。这样非常不便于网络传输(特别是邮件发送),在不影响的情况下,是有办法大幅减小其大小的,所以,我们定义类该接口,供需要的扩展实现:/**
* do strip
* @param originalFilePath the original file path
* @param newFilePath the new path
void doStrip(String originalFilePath, String newFilePath);最后,如果有必要,可以将生成的文件发生到kindle接受的图书馆(一个认可的邮件地址),这时我们需要抽象出,邮件发送的接口:IMailSender它定义了发送带附件的邮件接口:/**
* send mobi file from path
* @param filePath the mobi file path
void sendFrom(String filePath);impl该package默认实现了core以及component里所有的接口(既然全都实现了,还抽出接口来干嘛?)。这里,我只是提供了默认实现,抽出接口的原因是为了保证流程的稳定性,从而不必过份关注实现(下面你会看到实现的方式可能并不是唯一的),即使实现变了,也只是某个对象的内部发生改变,不至于扩大影响。抽象与实现哪里可能存在变化呢?因为我本机装了redis,所以我对图片对象以及entry对象的存储借助于redis,如果你不熟悉redis你可以更改其他的存储方式。FeedLink我默认存放在一个properties配置文件里,你可以存放在其他数据源内。RSSParser采用的是ROM+jsoup的解析方式,FullTxt 以及 Strip mobi借助于python来实现。。。由于有很多开源库可供选择,所以,如果你对某个库更熟悉,你可以更改它的实现,而不必伤筋动骨。库与技术点总结(1)mobi文件生成其实是可以基于html文件的,因而可以定义出固定的templete,填充内容后直接生成即可,这里使用的是freemarker(2)解析Feed以及对html进行过滤处理使用的是ROM+jsoup(3)json处理采用gson(4)全文输出借助于python的两个强大的开源库(feedparser / readability-lxml)。原理大概是解析dom,对某些元素的父元素计算特征值,可参考这篇文章 以及 这篇文章(5)mobi文件生成,借助于amazon提供的 for mac平台的kindlegen(6)邮件发送采用的是javamail(7)strip减小mobi文件大小也借助于python的实现,通过删除文件内部大量无用的空白等(8)图片多线程下载,采用的是线程池,这边还有待重新处理TODO(1)重新实现多线程图片下载(2)用node.js 起一个http server或者构建一个linux定时任务,做daily task具体的使用方法以及后续更新请关注:/yanghua/RssToMobiService 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
[精品]征集志愿者!
下载积分:500
内容提示:[精品]征集志愿者!
文档格式:PDF|
浏览次数:4|
上传日期: 10:38:10|
文档星级:
全文阅读已结束,如果下载本文需要使用
 500 积分
下载此文档
该用户还上传了这些文档
[精品]征集志愿者!
官方公共微信 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
【精品】英国重视教育在英国不仅云集了世界上最著名
下载积分:600
内容提示:【精品】英国重视教育在英国不仅云集了世界上最著名
文档格式:PDF|
浏览次数:3|
上传日期: 15:35:12|
文档星级:
全文阅读已结束,如果下载本文需要使用
 600 积分
下载此文档
该用户还上传了这些文档
【精品】英国重视教育在英国不仅云集了世界上最著名
官方公共微信

我要回帖

更多关于 什么牌子潜水泵好 的文章

 

随机推荐