今天早上起来第一件事情就是悝一理今天该做的事情,瞬间get到任务写一个只用python字符串内建函数的爬虫,定义为/post/category/main/(一个很有趣的网站一段话配一个图,老有意思了~)网站形式如下:
目标:把大的目标分为几个小的目标因为第一次干这个,所以对自己能力很清楚所以完成顺序由简单到复杂。
# 实现叻爬的单个页面的title和img的url并存入文本
下面要重新分析网站我已经可以获得一期的内容了,我现在要得到其它期的url,这样就想爬多少就爬哆少了
目标网址:/post/10189/"只有数字是变化的。
后来我又发现我想要的这两个数据都在<h2>这个标签下面,获取每期url的方法如下:
实现代码这个峩要想一想怎么写,我是第一次写爬虫不要嘲讽我啊!
感觉快实现了,还在写:
ok了所有的代码都写完了
网络爬虫的程序过程出现乱码的原因
python代码文件的编码