scrapy爬的代码跟源文件代码不一样

现在页面用ajax的越来越多, 好多代码昰通过js执行结果显示在页面的, 所以在scrapy抓取过程中就需要通过一个中间件来执行这个js代码, 

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

因为p下面还有各种符号,无法取得所有的字符因此中间添加了一个操作:

来获取所有的文本,这里是整个处理的核心

下面为了更好的格式化文本,因此进行了replace操作其中需特别注意的是header是一个数组,并不是字符串

洇此有一个关键的数组转字符串的方法需掌握

我要回帖

更多关于 源文件代码 的文章

 

随机推荐