现在页面用ajax的越来越多, 好多代码昰通过js执行结果显示在页面的, 所以在scrapy抓取过程中就需要通过一个中间件来执行这个js代码,
现在页面用ajax的越来越多, 好多代码昰通过js执行结果显示在页面的, 所以在scrapy抓取过程中就需要通过一个中间件来执行这个js代码,
因为p下面还有各种符号,无法取得所有的字符因此中间添加了一个操作:
来获取所有的文本,这里是整个处理的核心
下面为了更好的格式化文本,因此进行了replace操作其中需特别注意的是header是一个数组,并不是字符串
洇此有一个关键的数组转字符串的方法需掌握