如何使用PySpark和SparkSession设置到配置单元的连接(如何添加用户名和密码)？

在使用PySpark和SparkSession设置到配置单元的连接时，可以通过以下步骤添加用户名和密码：

导入相关库：

from pyspark.sql import SparkSession

创建SparkSession对象：

spark = SparkSession.builder \
    .appName("YourAppName") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

在config方法中，可以设置各种Spark相关的配置选项。

添加用户名和密码：

spark.conf.set("spark.hadoop.fs.azure.account.auth.type.<your-storage-account-name>.dfs.core.windows.net", "OAuth")
spark.conf.set("spark.hadoop.fs.azure.account.oauth.provider.type.<your-storage-account-name>.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider")
spark.conf.set("spark.hadoop.fs.azure.account.oauth2.client.id.<your-storage-account-name>.dfs.core.windows.net", "<your-client-id>")
spark.conf.set("spark.hadoop.fs.azure.account.oauth2.client.secret.<your-storage-account-name>.dfs.core.windows.net", "<your-client-secret>")
spark.conf.set("spark.hadoop.fs.azure.account.oauth2.client.endpoint.<your-storage-account-name>.dfs.core.windows.net", "https://login.microsoftonline.com/<your-tenant-id>/oauth2/token")

其中，<your-storage-account-name>为存储账户名，<your-client-id>为你的Azure Active Directory应用程序客户端ID，<your-client-secret>为你的Azure Active Directory应用程序客户端密钥，<your-tenant-id>为你的Azure Active Directory租户ID。

以上是在使用PySpark和SparkSession设置到Azure Blob存储的连接时的示例代码，你可以根据需要进行修改和扩展。当然，这也仅仅是其中的一种场景示例，Spark可以与多种数据源和存储系统进行连接和交互，具体的设置方式和参数会因不同的数据源而有所差异。

腾讯云产品中与Spark相关的服务有：TDSQL（云数据库TDSQL版）、COS（对象存储）、CKafka（消息队列CKafka）、TSDB（时序数据库），你可以根据具体需求选择相应的产品。具体产品介绍和更多信息可以参考腾讯云官方文档：腾讯云产品文档。

从PySpark查询远程配置单元元存储区

、、

我正在尝试使用用户名/密码/jdbc url查询PySpark中的远程配置单元元存储区。我可以很好地初始化SparkSession，但无法实际查询表。如果可能的话，我想把所有的东西都放在python环境中。有什么想法吗？ from pyspark.sql import SparkSession url = f"jdbc:hive2://{jdbcHostname}:{jdbcPort}/{jdbcDatabase}" driver = "org.apache.hive.jdbc.HiveDriver" # initialize spark = SparkS

浏览 14提问于2020-09-28得票数 0

2回答

如何使用PySpark和SparkSession设置到配置单元的连接(如何添加用户名和密码)？

、、、、

我一直在尝试使用PySpark访问Hive中的表格，在阅读了其他一些帖子后，这是人们推荐的连接Hive的方式。但它不起作用。然后我意识到我可能必须传递我的用户名和密码，但我不知道如何做到这一点。那么，有没有办法在设置SparkSession时传递用户名和pw，或者还有什么问题呢？ import sys from pyspark import SparkContext, SparkConf, HiveContext from pyspark.sql import SparkSession if __name__ == "__main__": # create Spark c

浏览 202提问于2020-01-27得票数 0

回答已采纳

1回答

如何在python中解密密码

、、、、

我的代码是使用pyspark连接到sql server。对于这个连接，我得到了jceks的加密密码。如何解密密码并用于从sql server加载表。请提个建议。 import pyspark import re from pyspark_llap import HiveWarehouseSession from pyspark.sql.functions import struct from pyspark.sql.functions import * from pyspark.sql.session import SparkSession spark = SparkSession \

浏览 14提问于2019-08-06得票数 4

回答已采纳

3回答

如何将spark远程蜂箱与认证连接起来

、

我必须使用本地星星之火将远程蜂箱与身份验证连接起来。我可以通过直线连接。连接JDBC ://bigdatamr:10000/ beeline>默认连接到JDBC:hive2://bigdatamr:10000/默认输入JDBC用户名: Hive 2://bigdatamr:10000/默认: myusername输入JDBC密码: Hive 2://bigdatamr:10000/ TRANSACTION_REPEATABLE_READ：*连接到: Apache (版本1.2.0MapR-1703)驱动程序:Hive(Version1.2.0-MapR-1703)事务隔离:TRAN

浏览 0提问于2019-07-25得票数 4

1回答

如何使用pyspark连接spark和hive？

、、、、

我正在尝试使用pyspark远程读取配置单元表。它会显示无法连接到Hive Metastore客户端的错误。我已经在SO和其他来源上阅读了多个答案，它们大多是配置，但它们都不能解决为什么我无法远程连接。我阅读了并观察到，无需在任何配置文件中进行更改，我们就可以将spark与hive连接起来。注意:我已经通过端口转发了一台运行hive的机器，并将其带到了localhost:10000上。我甚至使用presto连接了同样的系统，并且能够在hive上运行查询。代码是： from pyspark import SparkContext, SparkConf from pyspark.sql imp

浏览 5提问于2019-03-25得票数 5

回答已采纳

1回答

如何通过删除空列来创建变量PySpark数据

、、

我在一个名为“source_data”的相对文件夹中有两个JSON文件 "source_data/data1.json" { "name": "John Doe", "age": 32, "address": "ZYZ - Heaven" } "source_data/data2.json" { "userName": "jdoe", "password": "passwor

浏览 1提问于2021-02-11得票数 0

回答已采纳

1回答

Pyspark不显示配置单元数据库

、、

我尝试通过pyspark连接到hive数据库，但看不到我的数据库(仅默认) Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.4.5 /_/ Using Python version 3.7.4 (default, Aug 13 2019 20:35:49) SparkSession available as 'spark'. >&

浏览 2提问于2020-07-02得票数 0

1回答

使用jdbc返回具有列名的所有行

、、、

我是新来的火花，目前我正在处理从远程服务器连接的蜂巢数据库。我已经学习了许多关于如何将星星之火连接到hive的示例，而不是太多的工作。其中之一是使用下面的配置，但是，当将表提取到spark时，行值是列名。我的查询或火花配置有什么问题吗？ from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext, SparkSession spark = SparkSession \ .builder \ .master('yarn') \ .appName('C

浏览 1提问于2021-12-02得票数 0

1回答

将dynamodb表复制到配置单元的pyspark代码问题:不允许操作

、、、

我正在尝试使用pyspark代码从aws emr上的Dynamodb创建一个外部配置单元表。当我在hive提示符上执行该查询时，它工作得很好，但当我将它作为pyspark作业执行时，它就失败了。代码如下： from pyspark import SparkContext from pyspark.sql import SparkSession import os spark = SparkSession.builder.enableHiveSupport().getOrCreate() spark.sql('use ash_data') spark.sql(

浏览 2提问于2019-05-10得票数 2

1回答

建立电火花会话面临的问题

、、

我正在尝试连接两个数据库Postgres和Server。 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Spark SQL basic example") \ .config("spark.jars", "mssql-jdbc-8.4.1.jre8.jar") \ .getOrCreate() spark1 = SparkSession \ .builder \ .appName(

浏览 8提问于2022-08-05得票数 0

1回答

打印SparkSession配置选项

、、

当我启动pyspark时，会自动生成一个SparkSession，并将其命名为“spark”。我想打印/查看spark会话的详细信息，但访问这些参数有很多困难。 Pyspark自动创建一个SparkSession。这可以使用以下代码手动创建： from pyspark.sql import SparkSession spark = SparkSession.builder.appName("PythonSQL")\ .config("spark.some.config.option", "some-value")\

浏览 5提问于2016-09-10得票数 4

2回答

Spark 2.0:通过SparkSession重新定义GetOrCreate参数而看不到WebUI中的变化

、、

我在PySpark中使用Spark2.0。我正在通过2.0中引入的SparkSession方法重新定义GetOrCreate参数：此方法首先检查是否存在有效的全局默认SparkSession，如果是，则返回该缺省值。如果不存在有效的全局默认SparkSession，则该方法将创建一个新的SparkSession，并将新创建的SparkSession指定为全局默认值。如果返回现有的SparkSession，则此构建器中指定的配置选项将应用于现有的SparkSession。到目前为止还不错： from pyspark import SparkConf SparkConf().t

浏览 1提问于2016-11-20得票数 12

回答已采纳

1回答

如何设置内存和核心的初始设置？

我对spark和pyspark非常陌生。我已经在一个带有12内核和24g的linux机器上安装了我需要的所有东西。当我试图使用pyspark运行一些命令时，我注意到只有一个处理器在运行。这就是我正在做的，以便初始化这个过程。可以吗？ from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() spark.conf.set('spark.executor.cores', '12') spark.conf.set("spark.driver.memory

浏览 6提问于2020-02-04得票数 0

1回答

从PySpark连接到MSSQL

、、、

我正在尝试使用spark.read.jdbc.从PySpark连接到MS SQL DB。 import os from pyspark.sql import * from pyspark.sql.functions import * from pyspark import SparkContext; from pyspark.sql.session import SparkSession sc = SparkContext('xx') spark = SparkSession(sc) spark.read.jdbc('DESKTOP-XXXX\SQLEXPRE

浏览 4提问于2020-11-29得票数 1

回答已采纳

1回答

如何打印火花会话的火种连接？

、

假设我运行了pyspark命令，得到了SparkSession类型的全局变量spark。据我所知，这个spark与星火主有一个连接。我能打印这个连接的详细信息，包括这个火花主的主机名吗？

浏览 0提问于2018-05-02得票数 3

回答已采纳

1回答

在ml算法中使用dataframe

、、、

我了解到，为了使用ml.clustering Kmeans算法(实际上任何ml的algos?)使用dataframe，我需要将我的数据数据以特定的形状：(id，vector[])或类似的东西。如何应用正确的转换将正则表(存储在df中)转换为所需的结构？这是我的df： from pyspark import SparkConf from pyspark import SparkContext conf = SparkConf() sc = SparkContext(conf=conf) from pyspark.sql import SparkSession spark = SparkSes

浏览 2提问于2016-11-28得票数 3

1回答

创建Pyspark会话大约需要25秒

、、

我正在尝试使用MongoDB连接器来使用PySpark。但是，仅创建PySpark会话就需要大约20到25秒，这会影响服务的性能。我还给出了用来创建spark会话的代码片段。有没有人能建议我怎么让它更快？ from pyspark.sql import SparkSession my_spark = SparkSession \ .builder \ .appName("myApp") \ .config("spark.mongodb.input.uri", "mongodb://localhost:27

浏览 18提问于2020-04-14得票数 2

1回答

启动SparkSession的差异

、、

我对火花相对较新，但我可以看到这两种方法开始一个火花会议。有人能善意地强调在这两种方法中启动火花会话的区别和局限性吗？为什么有两种方法可以做到这一点？另一种方法是以下是密码： # Find path to PySpark. import collections import findspark findspark.init() # Import PySpark and initialize SparkContext object. import pyspark from pyspark.sql import SparkSession conf = pyspark.SparkConf()

浏览 1提问于2018-06-25得票数 2

回答已采纳

1回答

如何用火花呢连接Teradata

、、、、

我正在尝试通过PySpark连接teradata。我的CLI代码如下， from pyspark.sql import SparkSession spark=SparkSession.builder .appName("Teradata connect") .getOrCreate() df = sqlContext.read .format("jdbc") .options(url="jdbc:teradata://xy

浏览 0提问于2019-05-02得票数 2

回答已采纳

2回答

无法连接到python中的snappydata存储

、

我正在运行snappydata v0.9的docker镜像。从该映像内部，我可以对数据库运行查询。但是，我不能从我的机器上的第二台服务器上执行此操作。我将python文件从snappydata复制到安装的pyspark中(在导入中编辑snappysession到SnappySession )，并且(基于对的回答)，我编写了以下脚本(这是一些货物崇拜编程，因为我是从docker镜像中的python代码复制的--欢迎提出改进建议)： import pyspark from pyspark.context import SparkContext from pyspark.sql import Sp

浏览 0提问于2017-08-24得票数 0

3回答

向PySpark数据帧中添加组计数列

、、

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。尤其是，假设我拥有如下数据集 x | y --+-- a | 5 a | 8 a | 7 b | 1 我希望添加一个列，其中包含每个x值的行数，如下所示： x | y | n --+---+--- a | 5 | 3 a | 8 | 3 a | 7 | 3 b | 1 | 1 在dplyr中，我只想说： import(tidyverse) df <- read_csv("...") df %>% group_by(x) %>% mutate(n

浏览 0提问于2018-02-14得票数 37

回答已采纳

1回答

如何从木星笔记本中的PySpark远程连接格林梅数据库？

、、、

我试图通过将PySpark (与朱庇特笔记本)连接到Oracle上的格林梅数据库实例，但是当我知道密码正确时，我会收到以下错误。 Py4JJavaError: An error occurred while calling o424.load. : org.postgresql.util.PSQLException: FATAL: password authentication failed for user "user2" 我试过：关于与PySpark连接的格林梅利数据库文档回顾更改gp_hba.conf、sshd_conf和postgresql.conf文件中的Pos

浏览 0提问于2019-04-16得票数 1

4回答

编写与雪花连接的Pyspark代码时所遇到的错误

、、

当我试图从朱庇特笔记本中编写PySpark代码与雪花连接时，我遇到了一个错误。这是我遇到的错误： Py4JJavaError:调用o526.load时出错。：：java.lang.ClassNotFoundException:未能找到数据源: net.snowflake.spark.snowflake。请在找到包裹星星之火版本: v2.4.5主版:本地* Python 3.X 这是我的密码： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext from pyspark.sql impo

浏览 8提问于2020-06-25得票数 5

回答已采纳

2回答

如何在主节点上启用pyspark支持

、、、

我创建了一个dataproc集群，并手动安装conda和木星笔记本。然后，我安装了康达的火花放电。我可以成功地运行火花 from pyspark import SparkSession sc = SparkContext(appName="EstimatePi") 但是，我不能启用蜂箱支持。下面的代码会被堆积，并且不会返回任何内容。 from pyspark.sql import SparkSession spark = (SparkSession.builder .config('spark.driver.memory', '2G&#

浏览 0提问于2020-01-09得票数 4

回答已采纳

1回答

如何将蜂箱访问集成到从pip和conda派生的PySpark中(而不是来自火花分发或软件包)

、、、、

我通过conda和pip pyspark构建并以编程方式使用我的conda环境；而不是从可下载的Spark发行版中使用PySpark。正如您在上面的URL的第一个代码片段中看到的那样，我通过我的SparkSession启动脚本中的k/v conf-对来完成这一任务。(顺便说一句，这种方法使我能够在各种REPLs、IDEs和JUPYTER中工作)。但是，关于配置Spark支持访问单元数据库和元数据存储的问题，手册指出： Hive的配置是通过将hive-site.xml、core-site.xml (用于安全配置)和hdfs-site.xml (用于HDFS配置)文件放置在conf/中来完成的

浏览 2提问于2019-01-30得票数 5

回答已采纳

1回答

连接MongoDB与火花和火花

、、、、

我正在尝试使用MongoDB > Apache > RStudio sparklyr在本地机器上组装一个大型数据基础结构。我找不到一个解决方案来连接sparklyr和MongoDB。互联网上有少量的旧帖子，但还没有解决办法。MongoDB连接器显示了对SparkR的支持，但是这个包已经不在CRAN上了。有了Pyspark，我就可以连接起来，并与下面的信任一起工作： # import SparkSession from the pyspark package from pyspark.sql import SparkSession # initiate the connectio

浏览 6提问于2022-07-15得票数 0

2回答

基于PySpark的Apache内存配置

、

我正在PySpark上开发一个Apache应用程序。我寻找了这么多资源，但无法理解有关内存分配的几件事。 from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession \ .builder \ .master("local[4]")\ .appName("q1 Tutorial") \ .getOrCreate() 我也需要配置内存。它将在本地和客户端部署模式下运行。我从一些来源读到，在这种情况下，我不应该设置驱

浏览 9提问于2022-06-26得票数 0

1回答

Visual studio代码使用pytest进行Pyspark在SparkSession创建时卡住

、、

我正尝试在本地windows计算机上的Visual studio代码中运行pyspark单元测试。当我调试测试时，它在创建sparksession的地方卡住了。它没有显示任何错误/失败，但状态栏只显示"Running Tests“。一旦它工作了，我可以重构我的测试来创建sparksession作为测试装置的一部分，但目前我的测试停留在sparksession创建上。是否必须在本地计算机上安装/配置才能运行sparksession？我用assert 'a‘== 'b’尝试了一个简单的测试，我可以成功地调试和测试运行，所以我假设我的pytest配置是正确的。我面临的问题

浏览 5提问于2021-09-15得票数 1

1回答

如何在另一个模块中使用相同的spark会话

、、、、

我必须用两个任务在Airflow中运行两个模块。每个任务都有一个执行一些spark操作的PySpark模块。第二个模块使用在前一个会话中创建的数据帧并继续其操作。同样的SparkSession初始化，如何实现同样的效果？我尝试使用getActiveSession()，但由于任务1作业已完成，因此无法工作，因此当任务2运行时，会创建一个新的spark会话。 - [root@ ..dags]# cat tmp_spark_1.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName("

浏览 32提问于2021-11-23得票数 0

1回答

没有SQLContext的pyspark中的clearCache

、、、

考虑到SQLContext的pySpark documentation说“从Spark2.0开始，这将被SparkSession所取代。” 如何在不使用SQLContext的情况下从内存缓存中删除所有缓存表？例如，其中spark是SparkSession，sc是sparkContext from pyspark.sql import SQLContext SQLContext(sc, spark).clearCache()

浏览 20提问于2019-05-04得票数 3

回答已采纳

1回答

PySpark超时异常

、

我正在上运行pySpark，并且我试图使用网络图进行缩放。这是我的配置 import pyspark from pyspark.sql import SparkSession conf = pyspark.SparkConf().setAll([('spark.jars', 'gs://spark-lib/bigquery/spark-bigquery-latest.jar'), ('spark.jars.packages', 'graphframes:graphf

浏览 3提问于2019-10-07得票数 2

2回答

在我的Linux终端上运行一个脚本来初始化PySpark外壳(SparkVersion2.4.4)

、、、、

我在我的Linux计算机上使用PySpark。我的火花版本是2.4.4。我有一个小脚本来初始化基本入口点，包括SparkContext、SQLContext和SparkSession。这是密码。 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) import pyspark.sql.functions as sqlfunc --我不想每次打开PySpark时都输入这个。因此，我想要 ( a)在我的终端中运行这个脚本 ( b)继续在我的PySpark交互式shell中工作，我该怎么做？我阅读了下面的线程，以学习如

浏览 2提问于2019-10-18得票数 0

回答已采纳

2回答

使用最新spark版本时如何设置spark.sql.shuffle.partitions

、

我想在pyspark代码中重置spark.sql.shuffle.partitions配置，因为我需要连接两个大表。但以下代码在最新的spark版本中不起作用，错误显示"no method "setConf“in xxx” #!/usr/bin/python # -*- coding: utf-8 -*- import sys import pyspark from pyspark.context import SparkContext from pyspark.sql.session import SparkSession sc = SparkContext('loc

浏览 6提问于2017-10-01得票数 4

回答已采纳

1回答

开发和测试Python代码以连接本地计算机上的kafka streams

、、、、

我是在本地机器上使用Python的新手。到目前为止，我可以在Azure Databricks中编写代码。我想创建和部署连接到confluent kafka的库，并将数据保存到增量表。我弄糊涂了- 1]我是否需要通过如下设置从本地计算机连接到Databricks Delta，使用python将流存储到增量或将流存储到本地增量(我可以创建增量表 spark = pyspark.sql.SparkSession.builder.appName("MyApp") \ .config("spark.jars.packages", "io.delta:del

浏览 0提问于2021-01-08得票数 1

1回答

FileNotFoundError：[WinError 2]在cmd/Pycharm中运行pyspark时，系统找不到指定的文件

、、

我试着用下面的代码在pycharm中运行一个python文件。当我在cmd和pycharm中给pyspark时，我也面临着同样的问题，有没有人能帮我一下？提前谢谢。代码： from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, DateType, DecimalType, IntegerType spark = SparkSession.builder.master("local[*]").appName("ETL&

浏览 20提问于2020-12-02得票数 0

1回答

使用windows身份验证SQL Server JDBC与pyspark

、、、、

我想问如何使用Windows身份验证将SQL Server连接到吡火花库？我可以连接到，但当我尝试用Python编写代码时，我可以这样做。下面是我迄今为止所做的尝试。 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config("spark.driver.extraClassPath","mssql-jdbc-6.4.0.jre8.jar

浏览 0提问于2019-08-22得票数 3

回答已采纳

1回答

如何从数据库集群连接mongodb地图集

、、、、

如何从数据库集群连接mongodb地图集这是我笔记本上的简单代码 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("myApp") \ .config("spark.mongodb.input.uri", "mongodb+srv://admin:<password>@mongocluster.fxilr.mongodb.net/TestDatabase.Events") \ .getOrC

浏览 3提问于2021-10-06得票数 0

1回答

如何从本地PySpark读取远程HDFS文件？

、、

我试图将数据从远程HDFS文件系统加载到本地Mac计算机上的本地PySpark会话： from pyspark.sql import SparkSession from pyspark.sql.functions import col spark = SparkSession.builder.getOrCreate() path = "/xx/yy/order_info_20220413/partn_date=20220511/part-00085-dd.gz.parquet" host = "host" port = 1234 orders = spark

浏览 23提问于2022-08-13得票数 0

1回答

GCP节点中没有启动新SparkSession的资源

、、、、

我正在处理一个用例，在这个用例中，我必须处理大量数据(多个表)，并试图将其作为批处理作业提交给Dataproc集群(PySpark)。我的代码看起来像这样 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import SparkSession def readconfig(): #code to read a yaml file def func(filename, tabname): sc = SparkContext("local",

浏览 4提问于2020-06-20得票数 1

1回答

如何使延迟加载连接到REST

、、

我很高兴，Spark允许我建立到数据库表的JDBC连接，然后在上面构建转换，直到触发评估为止。我也想用REST连接来做同样的事情。理论上，这将提供一种在逻辑视图中集成DB和API信息的方法。是否有可能将Spark绑定到自定义函数，其中函数使用惰性计算生成的参数调用API？下面是一些要使用的pySpark代码： import findspark, json, requests findspark.init() from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("

浏览 0提问于2018-11-29得票数 2

回答已采纳

7回答

使用Beeline连接到配置单元

、、

我正在尝试通过Beeline客户端连接到安装在我的机器上的配置单元。当我发出'beeline‘命令并连接到配置单元时，客户端要求输入用户名和密码 !connect jdbc:hive2://localhost:10000/default 我不知道应该给出的用户名和密码是什么。是否必须在某个配置文件中添加凭据(用户名和密码)？

浏览 1提问于2015-03-18得票数 20

1回答

在Scala Spark和PySpark之间传递sparkSession

、、、

我的要求是从现有的PySpark程序中调用一个"Spark Scala“函数。将PySpark程序中创建的sparkSession传递给Scala函数的最佳方式是什么？我将我的scala jar传递给Pyspark，如下所示。 spark-submit --jars ScalaExample-0.1.jar pyspark_call_scala_example.py iris.data Scalacode def getDf(spark: SparkSession, query:String, df: DataFrame, log: Logger): DataFrame = { i

浏览 59提问于2019-10-01得票数 4

1回答

Python+PySpark文件本地连接到远程HDFS/Spark/纱线集群

、、

我一直在玩HDFS和Spark。我已经在我的网络上设置了一个五个节点集群，运行HDFS、Spark，并由Yarn管理。工作人员正在以客户端模式运行。从主节点，我可以很好地启动PySpark外壳。运行示例jars时，作业被分割成工人节点，并很好地执行。对于是否以及如何在这个集群上运行python/Pyspark文件，我有几个问题。如果我在其他地方有一个带有PySpark调用的python文件，比如在我的本地dev笔记本电脑上或者在某个地方的码头容器上，那么有什么方法可以在本地运行或提交这个文件并让它在远程Spark集群上执行呢？我想知道的方法包括在本地/docker环境中运行submit，但

浏览 45提问于2022-10-11得票数 0

回答已采纳

1回答

如何在火星雨中启动火花会话

、、

我希望更改火花会话的默认内存、执行器和核心设置。在木星中的HDInsight集群上，我的pyspark笔记本中的第一段代码如下所示： from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("Juanita_Smith")\ .config("spark.executor.instances", "2")\ .config("spark.executor.cores", "2")\

浏览 3提问于2017-07-21得票数 2

回答已采纳

1回答

如何使用特定jars运行python spark脚本

、、、、

我必须使用pyspark在EMR实例上运行python脚本来查询dynamoDB。我可以通过查询pyspark上的dynamodb来做到这一点，它是通过在下面的command中包含jars来执行的。 `pyspark --jars /usr/share/aws/emr/ddb/lib/emr-ddb-hive.jar,/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar` 我运行了下面的python3脚本，使用pyspark python模块查询数据。 import time from pyspark import SparkContext, Spark

浏览 16提问于2019-02-08得票数 2

回答已采纳

2回答

如何调试Samba授权(身份验证)过程

、、、

我正在运行一个基于linux的小型家庭网络服务器，它充当一个互联网路由器、急流客户端和文件服务器。连接Windows客户端到服务器Samba共享(‘用户名或密码无效’)有问题。如何启用Samba身份验证/授权过程的所有阶段的日志记录，如“客户端连接”、“客户端提供用户名.和密码.”等等，这样我就可以找出究竟是什么问题，因为我确定我提供了正确的用户名和密码？

浏览 0提问于2012-05-15得票数 10

回答已采纳

1回答

将PySpark数据复制到MySQL

、、

我正在尝试将用PySpark在DataBricks中创建的数据文件加载到MySql，但它告诉我： com.mysql.cj.jdbc.exceptions.CommunicationsException：通信链路故障 df_videojuegos.select("Nombre", "Plataforma", "Año", "Genero", "Editorial", "Ventas NA", "Ventas EU", "Ventas JP", "Ventas

浏览 6提问于2022-11-04得票数 0

回答已采纳

2回答

IllegalArgumentException:此服务需要项目ID，但无法根据生成器或环境确定项目ID

、、、、

我正在尝试将BigQuery数据集连接到数据库并使用Pyspark运行脚本。我做过的步骤：我将BigQuery Json API打了补丁到dbfs中的databrick，以便进行连接访问。然后，我在集群库中添加了spark-bigquery-latest.jar，并运行了我的脚本。当我运行这个脚本时，我没有遇到任何错误。 from pyspark.sql import SparkSession spark = ( SparkSession.builder .appName('bq') .master('local[4]')

浏览 74提问于2020-12-15得票数 1

回答已采纳

1回答

win7 pyspark sql实用程序IllegalArgumentException

、、、

我正试着在pycharm上运行pyspark。我已经连接了所有内容并设置了环境变量。我可以读取sc.textFile，但当我尝试从pyspark.sql读取csv文件时，出现了错误。代码如下： import os import sys from pyspark import SparkContext from pyspark import SparkConf from pyspark.sql import SQLContext from pyspark.sql import SparkSession # Path for spark source folder os.environ[

浏览 5提问于2016-08-12得票数 2

回答已采纳

1回答

数据库通过CosmosDB (MongoAPI)通过mongo_spark_connector连接

、、、

尝试用CosmosDB (mongo )连接数据库我已经安装了mongo_spark_connector_2_12_2_4_1.jar并运行了下面的代码。 > from pyspark.sql import SparkSession > > my_spark = SparkSession \ > .builder \ > .appName("myApp") \ > .getOrCreate() > > df = my_spark.read.format("com.mongodb.spark.s

浏览 0提问于2019-06-24得票数 0