首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >无法使用Scrapy从span类检索文本

无法使用Scrapy从span类检索文本
EN

Stack Overflow用户
提问于 2022-09-08 11:49:06
回答 1查看 59关注 0票数 1

我在span类中提取评等文本时有问题。

已经尝试了以下XPATH:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
response.xpath("//i/span[@class='a-icon-alt']/text()").getall()
response.xpath('//span[@data-hook="rating-out-of-text"]/text()').getall()

我有以下HTML:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<div class="a-fixed-left-grid AverageCustomerReviews a-spacing-small">
  <div class="a-fixed-left-grid-inner" style="padding-left:105px">
    <div class="a-fixed-left-grid-col a-col-left" style="width:105px;margin-left:-105px;float:left;">
      <i data-hook="average-star-rating" class="a-icon a-icon-star-medium a-star-medium-4 averageStarRating">
        <span class="a-icon-alt">3,8 de 5 estrelas</span>
      </i>
    </div>
    <div class="a-fixed-left-grid-col aok-align-center a-col-right" style="padding-left:0%;float:left;">
      <div class="a-row">
        <span class="a-size-base a-nowrap">
          <span data-hook="rating-out-of-text" class="a-size-medium a-color-base">3,8 de 5</span>
        </span>
      </div>
    </div>
  </div>
</div>

如果有帮助,则从此页面提取HTML:

https://www.amazon.com.br/Cookpad-inc/dp/B086MT7THB/ref=sr_1_12?brr=1&qid=1662666482&rd=1&s=alexa-skills&sr=1-12

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-09-08 14:18:02

我能够使用以下方法获得它: span不是文本的直接父级,所以使用//意味着它将从元素的任何附件中提取文本。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
response.xpath('//span[@data-hook="rating-out-of-text"]//text()').getall()

更新

如果你用刮痕..。一个很好的方法是使用open_in_browser函数来判断抓取响应是否与您在way浏览器中观察到的不同。然后你就可以从蜘蛛的角度看到页面的样子。

例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import scrapy
from scrapy.utils.response import open_in_browser

class MySpider(scrapy.Spider):
    ...
    ...
    start_urls = [...]

    def parse(self, response):
        open_in_browser(response)
        ...
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73654382

复制
相关文章
学习爬虫之Scrapy框架学习(六)–1.直接使用scrapy;使用scrapy管道;使用scrapy的媒体管道类进行猫咪图片存储。媒体管道类学习。自建媒体管道类存储图片
大家好,又见面了,我是你们的朋友全栈君。 1.引入: 先来看个小案例:使用scrapy爬取百度图片。( 目标百度图片URL: https://image.baidu.com/search/
全栈程序员站长
2022/09/13
4030
使用Scrapy从HTML标签中提取数据
Scrapy是一个用于创建Web爬虫应用的Python框架。它提供了相关编程接口,可以通过识别新链接来抓取Web数据,并可以从下载的内容中提取结构化数据。
PantaZheng
2018/09/17
10.2K0
使用Scrapy从HTML标签中提取数据
【VBA】在excel中检索文本
虽然在excel文件中检索的vba代码不知道写了多少遍了,每次需要的时候,都是从网上找,然后写。实在是低效的做法。从网上找了一段代码,放在此处,以后需要的时候可以随手拿来。
东风压倒西风
2022/09/06
2.8K0
C++新闻检索类
研究长字符串快速全文检索技术,实现某电力公司新闻中心新闻稿件全文检索统计系统。 1、 设计实现适合新闻稿件的基础类库 2、 新闻稿件全文检索功能实现 3、 新闻稿件按照关键字统计查询 代码如下 Paper.h #pragma once #ifndef PAPER_H // we're here only if PAPER_H has not yet been defined #define PAPER_H // Definition of PAPER_H class and relate
Enterprise_
2019/02/21
4760
解读 --- Span<T>
Span<T> 是C# 中的一种结构体,它是一种内存安全的类型,可以用来表示连续的内存区域。Span<T> 可以被用于访问和操作数组、堆上分配的内存和栈上分配的内存。使用 Span<T> 可以避免不必要的内存拷贝,从而提高性能。
Niuery Diary
2023/10/22
2490
解读 --- Span<T>
使用Span实现各种酷炫效果
前一段时间一直在做富文本展示和文本处理,主要用到了Html.fromHtml()实现加载网页,但实现整段文本的某些特殊如个别文字的点击,改背景色、前景色等效果,就用到了我们今天要用到的Span这个类。
蜻蜓队长
2018/08/03
2K0
使用Span实现各种酷炫效果
真·富文本编辑器的演进之路-富文本Span的边界探究
Span是Android文本系统中一个非常重要的功能,对于它的一般使用,其实比较简单,但在处理一些复杂业务时,Span的边界问题处理就显得非常重要了,不然很容易因为边界情况没有处理好,导致一系列很麻烦的bug。
用户1907613
2021/12/08
7440
真·富文本编辑器的演进之路-富文本Span的边界探究
scrapy笔记六 scrapy运行架构的实例配合解析
在之前的项目中已经可以正常运行出scrapy框架下的爬虫程序,但是如果换一个项目换一个爬取任务,要活学活用还需要进行针对scrapy是如何运行的进行深入的学习.
十四君
2019/11/27
8230
scrapy笔记六 scrapy运行架构的实例配合解析
解读 --- Span<T>
Span<T> 是C# 中的一种结构体,它是一种内存安全的类型,可以用来表示连续的内存区域。Span<T> 可以被用于访问和操作数组、堆上分配的内存和栈上分配的内存。使用 Span<T> 可以避免不必要的内存拷贝,从而提高性能。
Niuery Diary
2023/10/22
1900
解读 --- Span<T>
Scrapy从入门到放弃4--管道pipelines使用
别忘了开启mongodb数据库 sudo service mongodb start 并在mongodb数据库中查看 mongo
北山啦
2022/11/27
7520
Scrapy从入门到放弃4--管道pipelines使用
检索com类工厂中的组件失败_检索com类工厂的组件失败
检索 COM 类工厂中 CLSID 为 {000209FF-0000-0000-C000-000000000046} 的组件失败,原因是出现以下错误: 8000401a 因为配置标识不正确,系统无法开始服务器进程。请检查用户名和密码。 (异常来自 HRESULT:0x8000401A)。
全栈程序员站长
2022/09/23
1.4K0
基于内容的图像检索技术:从特征到检索
构建词库是离线操作,主要对目标数据集中的文本进行解析提取词干信息,建立当前数据集的词库,然后基于词库,对数据集中所有文档提取本文特征。构建词库在整个检索系统生命周期开始阶段实施,一般情况仅执行一次,是针对目标检索文本数据集进行的非频繁性操作。
公众号机器学习与AI生成创作
2020/12/08
1.6K0
基于内容的图像检索技术:从特征到检索
使用扩散模型从文本生成图像
来源:DeepHub IMBA本文约1400字,建议阅读5分钟本文将展示如何使用抱脸的扩散包通过文本生成图像。 在这篇文章中,将展示如何使用抱脸的扩散包通过文本生成图像,还有就一个一个不好的消息,因为这个模型的出现google的colab可能又要增加一些限制了。 从 DALLE 到Stable Diffusion 我们前面的文章也介绍过 OpenAI 的 DALLE-2 模型还有他的开源实现,它可以让我们从文本中创建高质量的图像。 但是DALLE2是收费的用户只有一些免费的额度,如果免费额度使用完毕就
数据派THU
2022/09/20
1.2K0
使用扩散模型从文本生成图像
使用扩散模型从文本生成图像
1代的DALLE使用VQ-VAE 的改进版,2代的DALLE2 通过使用扩散模型将图片的生成提升到了一个新的高度,但是由于其计算量很大而且没有开源,我们普通用户并没有办法使用,但是Stable Diffusion 的出现改变现状,可以让我们普通用户也可以直接使用,并且以前相对于 Disco Diffusion, Stable Diffusion 生成的图片更加实用;相对于 DALLE 2,Stable Diffusion 需要占用的资源更少,这样我们也可以在自己的电脑中使用它生成高质量的图片。
deephub
2022/11/11
1.2K0
使用扩散模型从文本生成图像
BufferedInputStream类方法,使用BufferedInputStream类读取文本文件内容
本文主要学习BufferedInputStream类方法,使用BufferedInputStream类读取文本文件内容、BufferedOutputStream类向文件中写入内容和它的常用方法,接下来小编带大家一起来学习!
Java进阶者
2021/12/09
1.1K0
BufferedInputStream类方法,使用BufferedInputStream类读取文本文件内容
Scrapy ---- 使用步骤
python、scrapy和pycharm已经安装好,并且python和scrapy环境已经配置好。scrapy安装比较简单的方法是通过pycharm IDE进行安装。 一、创建工程 命令行输入:sc
SuperHeroes
2018/05/30
7700
实战 | Elasticsearch实现类Google高级检索
一、高级检索的功能点 通过高级搜索配置搜索项,能更准确的过滤掉不相干信息,获取最想要的检索信息。 以Google搜索为例(截取核心片段): 二、高级检索拆分 1、包含以下全部的关键词: 需要分词
铭毅天下
2018/03/20
1.5K0
实战 | Elasticsearch实现类Google高级检索
Scrapy框架的使用之Scrapy入门
接下来介绍一个简单的项目,完成一遍Scrapy抓取流程。通过这个过程,我们可以对Scrapy的基本用法和原理有大体了解。 一、准备工作 本节要完成的任务如下。 创建一个Scrapy项目。 创建一个Spider来抓取站点和处理数据。 通过命令行将抓取的内容导出。 将抓取的内容保存的到MongoDB数据库。 二、准备工作 我们需要安装好Scrapy框架、MongoDB和PyMongo库。 三、创建项目 创建一个Scrapy项目,项目文件可以直接用scrapy命令生成,命令如下所示: scrapy st
崔庆才
2018/06/25
1.3K0
scrapy爬取数据并保存到文本
2.打开spidler目录下的Duba.py文件,代码如下(这个是根据豆瓣一部分页面获取的热门话题内容,有6条数据):
句小芒
2022/12/29
6880
scrapy爬取数据并保存到文本
scrapy 进阶使用
乐百川
2018/01/09
2K0
scrapy 进阶使用

相似问题

使用Scrapy从Span检索文本

238

无法从span scrapy python获取文本

112

如何使用scrapy从span获取文本

146

Scrapy不会从span类获得所有的文本

13

无法使用scrapy从span中提取内容

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文