你的明月几时有百度云盘名字是明月yuer吗?

如何采集PDF内的信息?
查看: 3577|
摘要: 1、通过火狐浏览器的工具菜单-选项-应用程序,点击“便携式文档格式(PDF)”右侧下拉菜单,设置为“在Firefox中预览”,这样网页上的pdf链接就能通过火狐浏览器直接显示为pdf网页。
2、打开一个pdf链接,就能看到
1、通过火狐浏览器的工具菜单-&选项-&应用程序,点击“便携式文档格式(PDF)”右侧下拉菜单,设置为“在Firefox中预览”,这样网页上的pdf链接就能通过火狐浏览器直接显示为pdf网页。
2、打开一个pdf链接,就能看到其网页版,此时按F12快捷键,如果能解析出HTML结构,就可以把它当做普通网页,从而通过集搜客爬虫来采集pdf内的信息,具体操作请往下看;
如果不能解析出HTML结构,说明pdf就像图片那样,不能抓取里面的信息,只能下载下来,自动批量下载pdf文件的方法见 。
3、打开MS谋数台制作第一级规则采集pdf链接,操作如下:
3.1 建立第一级规则,例如规则名叫“pdf_first”,输入样本网址,在整理箱中映射pdf链接并设置下级线索; 3.2 在爬虫路线中目标主题名填第二级规则名,例如规则名“pdf_second”。测试没问题就保存规则。
4、MS谋数台中点击文件菜单-&新建,输入样本网址,制作第二级规则,名字就用前面命名的第二级规则名,采集pdf内的信息。
4.1 如下图,我们可以看到一页pdf对应了一个div模块,要把整篇pdf文章抓下来,我们只能找包容每页pdf的上层节点做映射。注意:要先双击抓取内容,在高级设置中选择文本内容,然后才能对dom模块节点做内容映射。 4.2&找到包容整篇文章的节点做内容映射后,最好是对整理箱以及抓取内容都做上定位标志映射,能够提高定位的准确性和规则的适用性。
4.3 有多页pdf的话,还要设置翻页,操作:点击网页中的下一页按钮,定位到翻页记号所在的dom模块,在爬虫路线中新建记号线索,把翻页区块节点(这里是BUTTON节点)映射给定位编号,本案例中的翻页记号是属性节点@title,不是#text节点的话,要取消勾选文本记号,然后才能映射给记号定位编号。最后记得保存规则。
5、点击MS谋数台中的爬数据或通过火狐工具菜单运行DS打数机,在DS打数机中搜索规则。
先采集第一级规则:点击单搜,输入网址数量,采集时会把抓到的pdf链接自动导入到第二级规则中。
再采集第二级规则:由于翻页记号始终存在,最后就会陷入翻页循环,我们通过点击高级菜单-&中断标志-&重复内容来解决,这样当网页重复出现三次时,DS打数机就会判断为重复而停止抓取。然后右击规则名,统计有多少条等待抓取的线索,再输入线索数,如下图,爬虫会自动翻页采集,每抓一页得到一个xml数据文件,最后把xml导入到excel中,进行重复过滤以及文本合并处理,就能得到完整的pdf文章信息。
推荐新手看完如下教程,再来操作
1)安装集搜客爬虫,操作见安装说明
2)制作规则请参看教程学习
入门教程:
合并采集分散文本:
样例复制:
层级规则:
3)采集数据入门请参考教程学习
如何运行DS采集数据:
如何管理规则的线索:
如何查看数据文件:
如果看完上面教程,仍然搞不定,请看初级-&中级教程打牢基础,再来操作,可以事半功倍。教程参见
若有疑问可以或
上一篇:下一篇:

我要回帖

更多关于 秦时明月第三季百度云 的文章

 

随机推荐