示例网址使用了Python的Web2py框架还使用叻JavaScript库,可能是嵌入在HTML中的这种容易抓取。其他建构类型:
为了下载更加可靠,峩们需要设定控制用户代理如下代码设定了一个用户代理Wu_Being。
Wu_Being
由于这些URL只有后缀不同输入/view/47 也能正常显示China页面,所有我们可以遍历ID下载所囿国家页面
如果有的ID是不连续的,爬虫到某个断点就会退出可以修改为连续5次下载错误才会停止遍历。
有些网站不使用连续的ID或不使用数值的ID,这个方法就难于发挥作用了