如何在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询？

在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询，可以通过使用Elasticsearch的分布式查询功能来实现。具体步骤如下：

首先，确保已经安装了PySpark和Elasticsearch的Python客户端库。可以使用pip命令进行安装。
导入所需的库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from elasticsearch import Elasticsearch

创建一个SparkSession对象：

spark = SparkSession.builder \
    .appName("Elasticsearch Query") \
    .getOrCreate()

创建一个Elasticsearch客户端对象：

es = Elasticsearch(hosts=["<elasticsearch_host>"])

其中，<elasticsearch_host>是Elasticsearch的主机地址。

使用Spark读取Elasticsearch中的数据：

df = spark.read.format("org.elasticsearch.spark.sql") \
    .option("es.nodes", "<elasticsearch_host>") \
    .option("es.resource", "<index>/<type>") \
    .load()

其中，<index>是Elasticsearch中的索引名称，<type>是索引中的类型名称。

运行查询操作：

result = df.filter("<query_condition>").select("<columns>")

其中，<query_condition>是查询条件，可以使用Spark的DataFrame API进行灵活的查询操作，<columns>是需要返回的列。

将查询结果写入Elasticsearch：

result.write.format("org.elasticsearch.spark.sql") \
    .option("es.nodes", "<elasticsearch_host>") \
    .option("es.resource", "<index>/<type>") \
    .mode("overwrite") \
    .save()

关闭SparkSession和Elasticsearch客户端连接：

spark.stop()
es.close()

这样，就可以在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询了。

推荐的腾讯云相关产品：腾讯云Elasticsearch Service（ES），它是基于开源Elasticsearch的托管式云服务，提供了高可用、高性能、易扩展的Elasticsearch集群，适用于日志分析、全文搜索、数据挖掘等场景。

产品介绍链接地址：腾讯云Elasticsearch Service（ES）

如何在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询？

、、、、

我的最终目标是使用PySpark在Elasticsearch (ES)中高效地索引大量数据，然后对索引运行大量查询，并记录结果的统计信息。这就是wan.only设置为true的原因。通过这种设置，Spark似乎可以使用完全匹配所有节点来查询每个节点，然后最终合并为我真正想要的单个结果。即使我将查询更改为专门按

浏览 20提问于2019-02-13得票数 0

1回答

使用elasticsearch集群和web服务器集群避免单点故障的最佳方法

、、、、

但是这会造成一个单一的故障点--如果该节点出现故障，那么我将不会获得任何查询结果。到目前为止，我的解决方案是让elasticsearch作为非数据节点在每个web服务器上运行。每个web服务器都查询其本地elasticsearch节点，该节点反过来将请求发送到其中一个数据节点。这似乎是上建议的方法。然而，这确实意味着e

浏览 1提问于2013-09-13得票数 2

1回答

Elasticsearch验证查询API对于突出显示的查询失败

、、

我试图在我的查询中使用highlight，如这里提到的：。此查询在search API中正确工作，但在实际执行昂贵的查询之前，我希望使用elasticsearch：提供的validation API验证它org.elasticsearch.common.ParsingException: request does not support [highlig

浏览 11提问于2022-11-25得票数 0

回答已采纳

1回答

在hadoop上安装和配置elasticsearch

、、

我分别使用elasticsearch和spark/hadoop；具体而言，我使用的是cloudera和elasticsearch，它们运行在其他linux机器上。在hadoop中，我有一个边缘节点来提交火花作业，作业通过配置的执行器在其他6个节点上运行。下面这个安装指南对我来说信息不多。(1)当我在每个节点上安装elasticsearch<

浏览 3提问于2016-03-09得票数 2

1回答

使用pyspark查询Elasticsearch索引:如何指定es.nodes？

、、

我正在尝试用pyspark查询一个Elasticsearch索引，但没有成功：在ipython中，spark版本2.0.1：Py4JJavaE

浏览 2提问于2017-01-23得票数 0

1回答

为此，我在同一个ubuntu14.04专用服务器上使用elasticsearch、postgres和rails，它有256 40的RAM和20个内核、40个线程。我在elasticsearch上有10个索引，每个索引都有默认的碎片数(5)。根据不同的指数，他们有1000到40万的分类。大约每分钟5000次请求，2/3发出弹性搜索请求。根据htop，jvm使用了大约500%的CPU --我尝试了不同的

浏览 2提问于2015-01-28得票数 0

1回答

Lucene +自定义集群解决方案上的ElasticSearch开销

、、、

AFAIK，ElasticSearch具有所有相同的索引以及其他特性，如父-子对象或嵌套对象。因为这不是这个项目的案例。您应该以这种方式对它们进行索引，以便找到包含特定字符串的所有文件。向每个集群节点提交使用Hazelcast的索引任务每个索引任务都使用IndexWriter为仅使用本地文件系统的每个节点编写单独的

浏览 5提问于2017-06-13得票数 3

2回答

elasticsearch匹配两个字段

、、、

如何在elasticsearch上运行这个简单的SQL查询？从mytype选择*其中a= -23.4807339和b= -46.60068 我真的对它的语法有问题，在我的情况下，多匹配查询不能工作，我应该使用哪种查询类型？

浏览 4提问于2015-02-06得票数 9

回答已采纳

1回答

Apache

我有一个由3个基线节点和多个客户端节点组成的Ignite集群。每个基线节点都有一个具有指定IndexingSpi实现的配置。当客户端节点使用SpiQuery查询缓存时，将在所有3个服务器节点上调用IndexinSpi.query方法，客户端通过来自3个节点的结果联合接收迭代器。(例如，3倍的结果)。在IndexingSpi的实现中，我使用

浏览 4提问于2022-02-23得票数 0

1回答

为什么不允许保存主碎片的同一节点中的副本碎片提高性能/吞吐量？

据我所知，在Elasticsearch中，副本碎片用于两个主要目的：通过允许在多核CPU上并行运行搜索查询来提高吞吐量。Elasticsearch不允许在持有主碎片的同一节点上拥有副本碎片，其基本原理是，副本用于备份，如果副本与主碎片存储在同一个节点上，那么备份将毫无意义。我明白了。但是，在我的示例中，我有一个具有单个节点的集群，并且希望向中添加一个副本，以提高吞吐量，并且我不介意我

浏览 6提问于2022-01-11得票数 1

1回答

Elasticsearch超时值为true但仍得到结果

、

我将搜索查询的超时设置为10 my，因此我希望elasticsearch搜索查询应该在10 my内超时。抽样答复： "took": 460,.... 这是预期的行为还是我在这里遗漏了什么？我的目标是如果查询花费<em

浏览 1提问于2018-03-08得票数 6

回答已采纳

1回答

更像是ElasticSearch中的这个查询

、、、

我正在尝试对亚马逊产品数据执行基于内容的推荐，这些数据存储在我的名为‘亚马逊产品’的ElasticSearch索引中。我通过在ES的python客户端中使用MLT query，但在尝试它时，我没有得到任何响应。以下是我的代码： os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.elasticsearch:elasticsear

浏览 7提问于2021-04-05得票数 0

1回答

Elasticsearch整个文档搜索(Smart Search)

、

默认情况下，我的字段将被分析，并且我不想更改我的索引。我想创建一个查询，它搜索elasticsearch中所有字段中的一段文本，并将包含该文本的所有文档作为某个字段中的子字符串返回。一种方法是对每个字段使用MatchPhrasePrefix查询，同时对所有字段使用OR over查询，以便在整个文档中进行搜索。我的</e

浏览 2提问于2020-04-30得票数 0

1回答

Elasticsearch如何利用集群？

、、、

在将单节点群集改为多节点群集后，是否需要采取任何措施来利用群集？ - ELASTICSEARCH_PORT=${ELASTICSEARCH

浏览 2提问于2020-01-03得票数 1

回答已采纳

6回答

从节点请求Elasticsearch超时

、、、

我正在设置一个简单的Node.js REST服务，使用官方的Javascript客户端与Elasticsearch连接。我在本地运行这段代码，但是集群位于远程。当我浏览浏览器时，使用_head插件，我可以毫无问题地连接ES和查询。但是，通过Javascript客户端执行此操作会使所有请求超时。我设置了ElasticSearch对象，但是向它发送任何请求都不起作用。我不认为这是网络问题，因为我可以通过浏览器访问ES。这是我请求东西的方式

浏览 0提问于2014-03-14得票数 21

2回答

只有单个线程使用多处理池使用PySpark执行并行SQL查询。

、、、、

理想情况下，我希望拥有计算集群中的每个任务节点:获取表的名称，从数据库中查询该表，并将该表保存为S3中的Parquet文件(或一组Parquet文件)。我的第一步是让它在本地以独立模式工作。(如果我对每个给定表都有一个主键，那么我可以将查询和文件保存过程划分为给定表的不同行集，并将行分区分布到计算集群中的任务节点，以并行执行文件保存操作，但由于O

浏览 0提问于2018-11-21得票数 2

回答已采纳

1回答

因为切分导致搜索结果不好？

、、

我有弹性搜索节点的默认配置:5个碎片和1个副本。我查询特定字段上匹配的节点，这对于这5个碎片中的许多文档来说是相同的。但是，搜索结果有不同的分数，因为tf-以色列国防军在该特定碎片中查询该文档。对于我来说，理想的情况是，对于不同的碎片，相同字段的文档有相同的分数，我可以通过在第二个条件上排序来打破联系，这对我来说很重要。如何做到这一点？

浏览 0提问于2014-07-16得票数 3

回答已采纳

1回答

"(key)字段[@timestamp]未找到“重启elasticsearch节点

、、

我尝试使用logstash将文档输入到elasticsearch中，然后我可以使用kibana web界面进行查询。出于测试目的，我目前正在运行单个elasticsearch节点，该节点由logstash跟踪apache访问日志提供，以便我可以在扩展到集群中的多个elasticsearch节点之前学习如何使用logstash通过使用logstash输入文档，我昨晚

浏览 0提问于2014-10-11得票数 1

2回答

将索引从旧版本的elasticsearch迁移到elasticsearch* 7.9*

、、

我们希望在我们的项目中将elasticsearch版本从5.6升级到7.9。我必须将我们的索引和文档迁移到新版本，但我不能使用重新索引，因此我需要将高级客户端连接到elasticsearch 7，并使用http request for elasticsearch 5。对于迁移，我使用match_all查询获得部分文档，并从旧版本滚动，并在新的elasticsearch中使用批量请求

浏览 6提问于2020-10-21得票数 0

回答已采纳

1回答

elasticsearch查询DSL中查询的含义

、

我正在尝试理解elasticsearch查询的语义。我知道每个查询都是一个对象，其中包含对象" query“和"filter”，可能还有其他一些选项。现在，在一些叶查询对象中，可能有一个" query“对象，而不是文本或数字等原始数据，然而，这似乎是一个与开始时的查询不同的对象。我试图理解文档，但我找不到这两个对象的定义。我努力理解的是，我试图理解从叶子开始的<

浏览 14提问于2018-01-19得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询？

相关·内容

如何在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询？

使用elasticsearch集群和web服务器集群避免单点故障的最佳方法

Elasticsearch验证查询API对于突出显示的查询失败

在hadoop上安装和配置elasticsearch

使用pyspark查询Elasticsearch索引:如何指定es.nodes？

优化弹力搜索/ JVM

Lucene +自定义集群解决方案上的ElasticSearch开销

elasticsearch匹配两个字段

Apache

为什么不允许保存主碎片的同一节点中的副本碎片提高性能/吞吐量？

Elasticsearch超时值为true但仍得到结果

更像是ElasticSearch中的这个查询

Elasticsearch整个文档搜索(Smart Search)

Elasticsearch如何利用集群？

从节点请求Elasticsearch超时

只有单个线程使用多处理池使用PySpark执行并行SQL查询。

因为切分导致搜索结果不好？

"(key)字段[@timestamp]未找到“重启elasticsearch节点

将索引从旧版本的elasticsearch迁移到elasticsearch* 7.9*

elasticsearch查询DSL中查询的含义

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐