爬虫对 div span和 li span p 等标签识别有没有重要性排序

其实还是很有简单的你看这个還是有规律的,规律在于有分隔符|我写了个DEMO

 
通过get_text()得到内在所有内容,然后去除空格后面你就用split进行分割吧,后面的不写了
如果有问題再交流。

编写scrapy爬虫处理items相关元素数据,涉及到selector 整理备查。

一、常用xpath使用方法

三、xpath选择器整理

//div:去全局的子孙中找所有的div元素

.//表示去当前对象的子孙中找

/xxx//div:去儿子对象中找xxx节点丅所有的div元素

|:计算两个节点集合比如//div|//li


xpath语法案例:以取a标签为案例,div、span等都相同

xpath('//a[2]'):a标签找到后返回的是一个列表,[n]列表的n位置的值

选取所有href属性为a.com值的a元素
选取所有href属性包含a的a元素
选取所有href属性值以http开头的a元素
选取所有href属性值以.jpg结尾的a元素
选取状态为选中的radio元素

我要回帖

更多关于 div span 的文章

 

随机推荐