选择不同时间段网页信息显示不全同信息的网页怎么用pyspider爬取数据

这种情况我自己还没有试过,只是借助爬虫框架pyspider结合PhantomJS,这样就可以在python里面嵌入一些js代码,实现点击,下拉等操作啦。

pyspider可以通过设定age来实现周期爬取,不过很多爬取目标是会不定期地更新内容的,比如论坛帖子。帖子的更新时间是不一定的,如果我想要实现增量爬取的话,是否可以使用pyspider提供的现成接口,还是必须由自己实现这一功能?在文档中没有找到相关的接口说明。。

如果只通过设定age值来更新数据(超过age值的任务进行重爬和更新),感觉对于很多并未更新的帖子来说是不必要的。是否有更加好的方法可以解决这个需求呢?

研究了两天,写出来了,基础知识薄弱就是纠结。但是这个程序里全局变量OFFSET作用域不对,list_page调用自身的时候OFFSET居然重新为1了,百撕不得骑姐。还有爬虫获取的商铺列表和浏览器看到的列表不一样。也不知道具体原因。

'菜品': u'招牌老友花肠猪肚粉'}, '菜品': u'老友花肠猪肚干捞粉'}, '菜品': u'老友猪至尊炒伊面'}, '菜品': u'老友猪三脆炒伊面'}, '菜品': u'老友花肠猪肚伊面'}, '菜品': u'老友碎肉干捞伊面'}, '菜品': u'老友猪肉干捞伊面'}, '菜品': u'老友猪杂干捞伊面'}, '菜品': u'老友牛肉干捞伊面'}, '菜品': u'老友牛杂干捞伊面'}, '菜品': u'老友花肠猪肚炒粉'}, '菜品': u'老友花肠猪肚炒面'},

我要回帖

更多关于 网页信息显示不全 的文章

 

随机推荐