文章/答案/技术大牛

发布

社区首页 >问答首页 >利用find_partial_text实现Splinter抓取href

问利用find_partial_text实现Splinter抓取href
EN

Stack Overflow用户

提问于 2020-11-18 08:02:37

回答 1查看 192关注 0票数 0

我是新的网页抓取，并试图从一个HTML页面检索一个href使用Splinter和美丽汤。这是我的密码

# hem1
url="https://astrogeology.usgs.gov/search/map/Mars/Viking/cerberus_enhanced"
browser.visit(url)
hem1=browser.find_link_by_partial_text('Sample').get("href")

这将接收到错误。

AttributeError：“ElementList”对象没有属性“get”

任何帮助都是非常感谢的。

splinter

web-scraping

beautifulsoup

回答 1

Stack Overflow用户

发布于 2020-11-18 08:16:13

您会得到这个错误，因为browser.find_link_by_partial_text('Sample')返回一个ElementList。要从中获取一个元素，您需要使用索引。

示例：

hem1=browser.find_link_by_partial_text('Sample')
first_element = hem1[0]

要获得href，可以使用以下行：

hem1[0]['href']

关于find_link_by_partial_text()：https://splinter.readthedocs.io/en/latest/api/driver-and-element-api.html#splinter.driver.DriverAPI.find_link_by_partial_text的更多信息

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64896745

复制

在PySpark上使用XGBoost

pyspark 模型数据

我这里提供一个pyspark的版本，参考了大家公开的版本。同时因为官网没有查看特征重要性的方法，所以自己写了一个方法。本方法没有保存模型，相信大家应该会。

Sam Gor

2021/04/26

5.2K1

用PySpark开发时的调优思路（上）

文件存储 spark python

这一小节的内容算是对pyspark入门的一个ending了，全文主要是参考学习了美团Spark性能优化指南的基础篇和高级篇内容，主体脉络和这两篇文章是一样的，只不过是基于自己学习后的理解进行了一次总结复盘，而原文中主要是用Java来举例的，我这边主要用pyspark来举例。文章主要会从4个方面（或者说4个思路）来优化我们的Spark任务，主要就是下面的图片所示：（本小节只写了开发习惯调优哈）

Sam Gor

2021/06/25

1.6K0

大型网站架构体系的演变（上）

运维缓存数据库 java php

互联网上有很多关于网站架构的各种分享，有些主要是从运维和基础架构的角度去分析的（堆机器，做集群），太关注技术细节实现，普通的开发人员基本看不太懂。

哲洛不闹

2018/09/19

3980

PySpark｜从Spark到PySpark

spark 任务调度 python apache

简单的说Apache Spark是一个开源的、强大的分布式查询和处理引擎，它提供MapReduce的灵活性和可扩展性，但速度明显要快上很多；拿数据存储在内存中的时候来说，它比Apache Hadoop 快100倍，访问磁盘时也要快上10倍。

数据山谷

2020/11/06

3.5K1

PySpark入门级学习教程，框架思维（上）

https 网络安全 spark python

为什么要学习Spark？作为数据从业者多年，个人觉得Spark已经越来越走进我们的日常工作了，无论是使用哪种编程语言，Python、Scala还是Java，都会或多或少接触到Spark，它可以让我们能够用到集群的力量，可以对BigData进行高效操作，实现很多之前由于计算资源而无法轻易实现的东西。网上有很多关于Spark的好处，这里就不做过多的赘述，我们直接进入这篇文章的正文！

Sam Gor

2021/04/26

1.7K0

pyspark

python serverless jquery java

print("pyspark version"+str(sc.version)) map

Tim在路上

2020/08/05

1K0

Effective PySpark(PySpark 常见问题)

其他

首先确保安装了python 2.7 ,强烈建议你使用Virtualenv方便python环境的管理。之后通过pip 安装pyspark

用户2936994

2018/08/27

2.2K0

pySpark | pySpark.Dataframe使用的坑与经历

spark apache python 编程算法

笔者最近在尝试使用PySpark，发现pyspark.dataframe跟pandas很像，但是数据操作的功能并不强大。由于，pyspark环境非自建，别家工程师也不让改，导致本来想pyspark环境跑一个随机森林，用《Comprehensive Introduction to Apache Spark, RDDs & Dataframes (using PySpark) 》中的案例，也总是报错…把一些问题进行记录。

悟乙己

2019/05/26

8.2K0

PySpark 的背后原理

spark 大数据 java

本文介绍了 PySpark 的背后原理，包括其运行时架构、Driver 端和 Executor 端的运行原理，并分析了在大数据场景下使用 PySpark 的利弊。

涂小刚

2017/07/06

7.5K6

PySpark︱pyspark.ml 相关模型实践

spark python 存储

官方案例来源：https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.classification.MultilayerPerceptronClassifier

悟乙己

2020/03/27

2K0

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

python 数据处理 pyspark 程序对象

命令 , 安装 PySpark , 安装过程中 , 需要下载 310 M 的安装包 , 耐心等待 ;

韩曙亮

2023/10/11

5330

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

pyspark记录

其他

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)

DuncanZhou

2018/09/04

1.3K0

【译文】MapReduce：大型集群上的简化数据处理

其他

MapReduce是一个编程模型，以及处理和生成大型数据集的一个相关实现，它适合各种各样的现实任务。用户指定计算的map和reduce函数。底层运行系统自动地将大规模集群机器间的计算并行化，处理机器故障，以及调度机器间通信以充分利用网络和磁盘。程序员会发现这个系统很好使用：在过去的去年中，超过一万个不同的MapReduce程序已经在Google内部实现，平均每天有十万个MapReuce作业在Google集群上被执行，每天总共处理20PB以上的数据。

Gaussic

2018/08/17

8010

pyspark on hpc

spark 高性能计算大数据

本地内部集群资源有限，简单的数据处理跑了3天。HPC上有很多计算资源，出于先吃锅里的再吃碗里的思想，琢磨先充分利用共有资源。简单调研下，也不是很复杂的事情。

flavorfan

2021/12/10

1.7K0

PySpark简介

大数据搜索引擎

Apache Spark是一个大数据处理引擎，与MapReduce相比具有多个优势。通过删除Hadoop中的大部分样板代码，Spark提供了更大的简单性。此外，由于Spark处理内存中的大多数操作，因此它通常比MapReduce更快，在每次操作之后将数据写入磁盘。

双愚

2018/08/30

7.1K0

pyspark记录

spark bash bash 指令 python

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)

DuncanZhou

2020/01/21

9930

pyspark之从HDFS上读取文件、从本地读取文件

hdfs

hdfs上的路径： path="hdfs:///主机名:端口号/地址" 本地上的路径： path"file:///本地地址" 读取文件： rdd=sc.textFile(path)

西西嘛呦

2020/08/26

5.3K0

速读原著-Gradle 在大型 Java 项目上的应用

gradle android maven apache java

在 Java 构建工具的世界里，先有了 Ant，然后有了 Maven。Maven 的 CoC[1]、依赖管理以及项目构建规则重用性等特点，让 Maven 几乎成为 Java 构建工具的事实标准。然而，冗余的依赖管理配置、复杂并且难以扩展的构建生命周期，都成为使用 Maven 的困扰。

cwl_java

2020/02/14

2.1K0

Python大数据之PySpark(二)PySpark安装

python 大数据 pyspark 进程配置

spark-submit 提交圆周率的计算代码 */examples/src/main/python/pi.py*

Maynor

2023/09/28

3K0

python中的pyspark入门

第二期热点征文-人工智能

PySpark是Python和Apache Spark的结合，是一种用于大数据处理的强大工具。它提供了使用Python编写大规模数据处理和分析代码的便利性和高效性。本篇博客将向您介绍PySpark的基本概念以及如何入门使用它。

大盘鸡拌面

2023/10/21

7890

相似问题

PySpark/Delta数据仓库的高效执行

加载大型数据仓库表的更快方法

无法使用大型字典的Pyspark

如何在pySpark数据仓库中添加行id

116

大型数据帧( pyspark)上的EMR笔记本会话在数秒内超时(使用pyspark)

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问利用find_partial_text实现Splinter抓取href
EN

回答 1

Stack Overflow用户

PySpark/Delta数据仓库的高效执行

加载大型数据仓库表的更快方法

无法使用大型字典的Pyspark

如何在pySpark数据仓库中添加行id

大型数据帧( pyspark)上的EMR笔记本会话在数秒内超时(使用pyspark)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用find_partial_text实现Splinter抓取hrefEN

回答 1

Stack Overflow用户

PySpark/Delta数据仓库的高效执行

加载大型数据仓库表的更快方法

无法使用大型字典的Pyspark

如何在pySpark数据仓库中添加行id

大型数据帧( pyspark)上的EMR笔记本会话在数秒内超时(使用pyspark)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用find_partial_text实现Splinter抓取href
EN