本文主要介绍scrapy架构图、组建、工作流程,以及结合selenium python boss直聘爬虫案例分析
引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件.
調度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎.
下载器负责获取页面数据并提供给引擎,而后提供给"] 设置第一个爬取的URL,即boss直聘第一页 第一次发送请求前调用,之后不再调用 蜘蛛每yield一个item,这个方法执行一次
下载器负责获取页面数据并提供给引擎,而后提供给"] 设置第一个爬取的URL,即boss直聘第一页