无法在pyspark上运行查询

、、

在SQL server上，我必须选择每年出现次数最多的月份，并按从高到低的顺序进行排序。occurrences_sample GROUP BY year, month ORDER BY ROW_NUMBER() OVER(PARTITION BY year ORDER BY COUNT(day) DESC) 但是在互联网上阅读必须改变限制GROUP BY year, month ORDER BY ROW_NUMBER() OVER(PARTITION BY year ORDER BY COUNT(day) DESC) limit 1 但是<

浏览 16提问于2020-11-28得票数 1

回答已采纳

1回答

启动jupyter-pyspark内核时生成损坏的文件

、、

我们已经在两个带有pyspark内核的linux hadoop服务器上安装和设置了jupyter笔记本。这两个服务器具有相同的kernel.jason配置，具有相同的spark和pyhton版本。在一台服务器上jupyter notebook ui --> pyspark内核工作正常，但在另一台服务器上启动pyspark内核时，有一个文件(名称为-？)是在用户主目录中生成的，能够在打开的pyspark内核会话中执行查询<

浏览 33提问于2019-08-20得票数 0

2回答

找不到google.cloud.spark模块

、、、

同时使用来运行pyspark作业。我的代码尝试在bigquery上执行一个查询，使用pyspark = 'select max(col ) from表‘df =spark.read.format(’bigquery‘).load(查询)

浏览 11提问于2022-07-11得票数 0

1回答

在EMR上用PySpark连接不同胶目录的表

、、

为了在EMR上从PySpark查询Glue目录，我在集群配置中设置了参数hive.metastore.glue.catalogid。可以从连接不同Glue目录的表(在不同的AWS帐户上)吗？我试图从一个AWS租户到另一个AWS租户使用雅典娜创建一个视图，但显然PySpark无法查询SQL。

浏览 4提问于2021-11-27得票数 4

回答已采纳

1回答

在PySpark* DataFrame上运行sql查询*

但是，我有一个复杂的SQL查询，我想对这些数据表进行操作，我想知道是否可以避免将其转换为pyspark。在SQL中： select column1, column1 where end_date >= DATE '2019-03-31' ) <e

浏览 18提问于2019-08-07得票数 1

回答已采纳

1回答

如何使用特定jars运行python spark脚本

、、、、

我必须使用pyspark在EMR实例上运行python脚本来查询dynamoDB。我可以通过查询pyspark上的dynamodb来做到这一点，它是通过在下面的command中包含jars来执行的。` 我运行了下面的python3脚本，使用pyspark python模块查询数据。import time from pyspark import SparkContext, Spark

浏览 16提问于2019-02-08得票数 2

回答已采纳

1回答

如何在调试模式下调用PySpark？

、、、、

我在ApacheSpark1.4中设置了IntelliJ IDEA。我目前正在运行这个Python来初始化星火进程。不幸的是，编辑Apache源代码并运行自定义副本不是一个可接受的解决方案。有没有人知道是否有可能在调试模式下让火花提交调用Apache脚本？如果是这样的话，是怎么做的？

浏览 5提问于2015-07-06得票数 22

1回答

如何在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询？

、、、、

我的最终目标是使用PySpark在Elasticsearch (ES)中高效地索引大量数据，然后对索引运行大量查询，并记录结果的统计信息。我尝试在ES查询中表达限制，但显然Spark忽略了这一点，所以我用数据框过滤器来表达它。即使我将查询更改为专门按单个文档ID进行搜索，它也会通过主节点对每个单独的分片运行查询，方法是在每次调用时指定一个特定的分片ID。如何使用PySpark对ES运行</e

浏览 20提问于2019-02-13得票数 0

1回答

将Jar文件添加到Jupyter notebook -：java.lang.ClassNotFoundException: com.teradata.jdbc.TeraDriver

、、、

我得到了一个pyspark脚本，它是使用这个bash脚本运行的： ? 现在我在jupyter notebook上运行pyspark脚本。我添加了teradata jar，如下所示： ? 但是，当我稍后尝试使用“spark.read.jdbc”来运行查询来检索teradata数据时，我得到了这个错误： ? 我可以知道如何解决这个问题吗？

浏览 28提问于2020-07-07得票数 0

回答已采纳

2回答

Pyspark Sql:无法在Kerberized群集上运行查询。权限被拒绝

、、、

我运行以下pyspark代码： MySpark.py # -*- coding: utf-8 -*-frompyspark.sql import HiveContext sc = SparkContext(conf=sconf)("show databases") df2 = sqlConte

浏览 44提问于2021-07-09得票数 0

回答已采纳

2回答

在AWS中监视python shell胶合作业

、、

在亚马逊网络服务的文档中，他们指定了如何激活对Spark作业()的监控，但不是python外壳作业。使用原样的代码会给出这个错误：ModuleNotFoundError: No module named 'pyspark' 更糟糕的是，在注释掉from pyspark.context import SparkContext

浏览 0提问于2020-05-22得票数 1

1回答

如何在Cloudera Quickstart下将Spark Notebook设置为Hue？

、、、

我最近尝试在Hue UI中设置Spark Notebook。我在VirtualBox中运行Cloudera CDH 5.8。Spark notebook在Livy服务器上工作，我安装了livy服务器。我已经尝试了几个脚本，只有Impala，Hive脚本有效，但R，Pyspark或Scala脚本不起作用。我得到了以下错误。谢谢。.....Thanks to Romainr，我可以在色调中运行Spark Noteb

浏览 11提问于2016-08-10得票数 0

1回答

如何在中间层集群上运行PySpark* (可能是在客户端模式下)？*

、、

我试图在中间层集群上运行一个PySpark作业，但是我似乎无法让它运行。我知道Mesos不支持PySpark应用的集群部署模式，需要在客户端模式下运行。我相信这就是问题所在。当我尝试提交一个PySpark作业时，我得到了下面的输出。... socket.hpp:107] Shutdown failed on fd=48: Transport endpoint is not connected [107] 我认为在客户

浏览 0提问于2015-09-16得票数 3

1回答

PySpark: java.lang.ClassCastException

、、

我有一个PySpark代码，它开发查询并在另一个内部映射到HBase表的Hive表上运行insert into命令。当我使用spark sql在Hive表上运行insert into命令时，我得到了以下异常。org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat 我检查了数据类型和tblp

浏览 1提问于2017-07-25得票数 3

3回答

调试python-spark代码的最佳实践

、、

我现在这样做的方式是启动pyspark shell，复制粘贴，然后逐行执行代码。我想知道是否有更好的方法。如果pdb.set_trace()能够工作，那么它将是一个更有效的选择。我在spark-submit --master yarn --deploy-mode client上试过了。程序确实停了下来，并在调用pdb.set_trace()的那一行给了我一个shell。但是，在shell中输入的任何pdb命令都会被挂起。pdb.set_trace()被插入在spark函数调用之间，据我所知，应该在本地<

浏览 0提问于2018-03-13得票数 8

1回答

带有pip安装的Apache火花不工作

、、、

但是，在成功安装时，我可以运行在python shell中，我无法通过运行或火花-提交，与 spark-submit两者的错误都是“无法找到指定的路径”。我在Windows上，怀疑我丢失了火花的JAR文件。pip安装不应该解决这个问题吗？

浏览 1提问于2017-07-17得票数 2

回答已采纳

1回答

如何使用pyspark连接spark和hive？

、、、、

我正在尝试使用pyspark远程读取配置单元表。它会显示无法连接到Hive Metastore客户端的错误。我已经在SO和其他来源上阅读了多个答案，它们大多是配置，但它们都不能解决为什么我无法远程连接。我阅读了并观察到，无需在任何配置文件中进行更改，我们就可以将spark与hive连接起来。注意:我已经通过端口转发了一台运行hive的机器，并将其带到了localhost:10000上。我甚至使用presto连接了同样的系统，并且能够在hive上

浏览 5提问于2019-03-25得票数 5

回答已采纳

2回答

如何使用python在pyspark上运行sql查询？

、

嗨，我是pyspark的新手。我没有用pyspark编写代码，所以我需要帮助来使用python在pyspark上运行sql查询。sql查询： select a.id as nmitory_id, a.dscrptn as nmitor

浏览 23提问于2019-11-12得票数 1

2回答

Apache Spark PySpark连接到MSSQL数据库JDBC

、、

我正在尝试使用Apache Spark连接到本地主机/笔记本电脑上的SQL Server数据库。但经过多次尝试，并密切关注在线文档，我无法成功连接到数据库和读/写查询。我在Windows 10 64位操作系统上使用Python 3.7.3，我有Python的Anaconda发行版。我在https://www.microsoft.com/en-us/download/details.aspx?id=57782下载了Mic

浏览 37提问于2019-12-31得票数 1

1回答

运行SQL子查询"AnalysisException: U“时出现Pyspark错误，不允许在非等式谓词中使用相关列：\n聚合”

、

我已经编写了一个SQL查询，其中包含一个子查询。这是一个正确的mySQL查询，但没有在Pyspark上实现 from pyspark import SparkContext, SparkConffrom pyspark.sql.types import * from <em

浏览 168提问于2020-12-18得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

启动jupyter-pyspark内核时生成损坏的文件

找不到google.cloud.spark模块

在EMR上用PySpark连接不同胶目录的表

在PySpark* DataFrame上运行sql查询*

如何使用特定jars运行python spark脚本

如何在调试模式下调用PySpark？

如何在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询？

将Jar文件添加到Jupyter notebook -：java.lang.ClassNotFoundException: com.teradata.jdbc.TeraDriver

Pyspark Sql:无法在Kerberized群集上运行查询。权限被拒绝

在AWS中监视python shell胶合作业

如何在Cloudera Quickstart下将Spark Notebook设置为Hue？

如何在中间层集群上运行PySpark* (可能是在客户端模式下)？*

PySpark: java.lang.ClassCastException

调试python-spark代码的最佳实践

带有pip安装的Apache火花不工作

如何使用pyspark连接spark和hive？

如何使用python在pyspark上运行sql查询？

Apache Spark PySpark连接到MSSQL数据库JDBC

运行SQL子查询"AnalysisException: U“时出现Pyspark错误，不允许在非等式谓词中使用相关列：\n聚合”

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐