发布了10 篇原创文章 · 获赞 5 · 访问量 11万+
类TiebaSpider定义了URL的处理以及下载的行為。
runspider方法开始运行爬虫(后面会将这个方法映射到一条console命令进行安装)
在项目根目录下创建setup.py,内容如下:
使用这个setup.py安装后的系统可以通過命令runspider命令直接运行爬虫
为了打包程序,确认当前在项目根目录然后执行下列命令:
执行成功后,可以看到项目根目录下生成了一些咑包文件
内容如下(因为是docker镜像,所以一些依赖包需要单独安装):
4、步骤三:由镜像启动容器并挂载项目目录 启动容器(/program挂载了项目根目录/data为dockerfile中定义的volume)并进入容器的命令行:
安装python的scrapy项目(/program挂载的是主机上的项目根目录,该目录下有已经创建的setup.py文件和打包文件):
安装完成後就可以执行命令了执行命令,运行爬虫:
5、查看下载内容 因为是图片下载到容器的/data目录下首先要找到其对应的主机目录:
发布了10 篇原创文章 · 获赞 5 · 访问量 11万+