博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy 的 selector 练习
阅读量:6704 次
发布时间:2019-06-25

本文共 1096 字,大约阅读时间需要 3 分钟。

网页结构

连接:

scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html

Play:

注意xapthcss两种方式的区别与联系

# selectorresponse.selector.xpath('//title/text()').extract()response.selector.css('title::text').extract()# response的selector的xpath与css太常用了,所以提供了简捷写法:# 文本一response.xpath('//title/text()').extract()response.css('title::text').extract()# 文本 包括子节点sel.xpath("//a[1]//text()").extract()# 文本 包括子节点sel.xpath("string(//a[1])").extract()# 属性response.xpath('//img/@src').extract()response.css('img::attr(src)').extract()# 混合response.css('img').xpath('@src').extract()response.xpath('//img').css('::attr(src)').extract()# 精确response.xpath('//div[@id="images"]/a/text()').extract()response.css('div[id=images] a::text').extract()# 模糊response.xpath('//div[contains(@id, "image")]/a/text()').extract()response.css('div[id*=image] a::text').extract()# 正则response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')

转载地址:http://zrblo.baihongyu.com/

你可能感兴趣的文章
POST 后台404错误
查看>>
Ubuntu 解压zip文件名乱码问题解决
查看>>
动态规划
查看>>
Hibernate的延迟加载
查看>>
IE中input标签密码框与文本框宽度不一样问题
查看>>
【系统架构师修炼之道】(10):绪论——系统架构师的定义与职业素质
查看>>
Uber 开源地理可视化工具 Ketoper.gl,加速数据处理
查看>>
NSDate格式化小例
查看>>
运维不容错过的4个关键指标!
查看>>
spring 基础
查看>>
商品详情页上拉查看详情
查看>>
Kubernetes DNS服务简介
查看>>
「压缩」会是机器学习的下一个杀手级应用吗?
查看>>
IIS应用程序池_缓存回收
查看>>
使用Docker镜像和仓库
查看>>
二叉树
查看>>
springcloud(一):大话Spring Cloud
查看>>
Linux之父道歉后,Linux社区颁布开发人员行为准则
查看>>
map 遍历
查看>>
当人工智能遇到数字营销,阿里妈妈在云栖大会亮出了Ad Tech的名片
查看>>