scrapy 的 selector 练习-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

scrapy 的 selector 练习

阅读量：6704 次

发布时间：2019-06-25

本文共 1096 字，大约阅读时间需要 3 分钟。

网页结构：

     Example website    
        
      Name: My image 1 
   
      Name: My image 2 
   
      Name: My image 3 
   
      Name: My image 4 
   
      Name: My image 5

连接:

scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html

Play:

注意xapth与css两种方式的区别与联系

# selectorresponse.selector.xpath('//title/text()').extract()response.selector.css('title::text').extract()# response的selector的xpath与css太常用了，所以提供了简捷写法：# 文本一response.xpath('//title/text()').extract()response.css('title::text').extract()# 文本 包括子节点sel.xpath("//a[1]//text()").extract()# 文本 包括子节点sel.xpath("string(//a[1])").extract()# 属性response.xpath('//img/@src').extract()response.css('img::attr(src)').extract()# 混合response.css('img').xpath('@src').extract()response.xpath('//img').css('::attr(src)').extract()# 精确response.xpath('//div[@id="images"]/a/text()').extract()response.css('div[id=images] a::text').extract()# 模糊response.xpath('//div[contains(@id, "image")]/a/text()').extract()response.css('div[id*=image] a::text').extract()# 正则response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')

转载地址：http://zrblo.baihongyu.com/

你可能感兴趣的文章

POST 后台404错误

Ubuntu 解压zip文件名乱码问题解决

Hibernate的延迟加载

IE中input标签密码框与文本框宽度不一样问题

【系统架构师修炼之道】（10）：绪论——系统架构师的定义与职业素质

Uber 开源地理可视化工具 Ketoper.gl，加速数据处理

NSDate格式化小例

运维不容错过的4个关键指标！

商品详情页上拉查看详情

Kubernetes DNS服务简介

「压缩」会是机器学习的下一个杀手级应用吗？

IIS应用程序池_缓存回收

使用Docker镜像和仓库

springcloud(一)：大话Spring Cloud

Linux之父道歉后，Linux社区颁布开发人员行为准则

当人工智能遇到数字营销，阿里妈妈在云栖大会亮出了Ad Tech的名片

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-28 10:23:19 当前IP: 3.22.79.165 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我