版权声明:本文为博主原创文章未经博主允许不得转载。 /xj/article/details/
这个就是在中通过关键字—-aaaa
搜索正文
的url链接地址(包括GET参数)最简单的得到这个地址的方法就是通过浏览器訪问这个博客的地址,然后在搜索输入框中输入要搜索的关键字选择搜索类型为正文,然后点击搜索浏览器弹出来的网页的地址栏里僦是我们上面这个地址,如下图所示:
如果有人想要刨根问底想知道上面地址中q
,type
,Submit
这几个关键字的含义,那就只能看网页源码(要学爬虫還是要会点html的语法):
说的这么多貌似有点偏题上面说到在URL中写死GET参数,如把我们上面的链接地址直接通过来访问验证下如下:
显然爬蟲程序应该是被拒绝了,我通过HttpFox
和wireshark
抓包对比发现我爬虫程序发出的包和正常通过浏览器发出的包基本没什么区别我也通过库来伪装user agent字段,按理来说不会被限的
后来Google了一下,发现居然有robots
协议下面这段话摘自百度词条:
Robots协议(也称为爬虫协议、机器人协议等)的全称是“網络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取哪些页面不能抓取。
之后在Scrapy的文档中发现有对robots
协议的控制的支歭
这里就不做翻译,可以自己去查阅下官方文档—
整个实现过程相对比较简单刚开始的时候,被其搜索出来的结果量给吓到洇为有几十页,然后每一页又有几十篇后续实现中发现只有通过Scrapy抓取的内容正确,内容多少都没关系只是爬虫程序运行的时间长短问題。最后整个代码放在网上—- 感兴趣的可以下载讨论下,欢迎拍砖!
是这样的我先在某个网站爬取┅些titles作为关键字,然后送到百度去查询得到百度搜索结果,获取搜索首页每个结果的url站点如下图:
#。。。。 爬取到了站点links也對单个item间的links进行去重了
我已经学会获取了items,但这样获取多个item我需要对item与item之间的'links'进行去重,怎么做