如何找到特定Spark配置属性的值？

、

如何在我的spark代码中找到spark配置的值？例如，我希望找到spark.sql.shuffle.partitions的值并在我的代码中引用它。下面的代码将返回所有值：- spark.sparkContext.getConf().getAll() 如何检索单个配置设置？

浏览 18提问于2019-05-01得票数 3

回答已采纳

2回答

如何更改我的星火计划的HDFS复制因子？

、、、

我需要改变HDFS复制因子从3到1我的星火计划。在搜索时，我想出了"spark.hadoop.dfs.replication“属性，但是通过查看，它似乎不再存在了。那么，如何从我的星火程序或使用火花提交更改hdfs复制因子呢？

浏览 1提问于2017-09-07得票数 3

回答已采纳

1回答

如何找到火花存储所有配置值的位置

我是新的火花&学习它的内部，星火的事情之一，是逃避我是如何火花会话获得所有配置属性。我想收集所有的星火配置，包括默认的配置。我可以很容易地找到火花会话中显式设置的文件，也可以通过运行下面这样的小代码来查看spark-defaults.conf文件。configurations = spark.sparkContext.getConf().

浏览 2提问于2021-07-22得票数 0

回答已采纳

1回答

launch_container.sh中纱线如何执行PYSPARK环境设置

、、、

将传入的配置文件、传入的可执行python文件上载到用户hadoop主目录下创建的.sparkStaging目录中。除了这些文件，pyspark.zip和py4j-version_number.zip .lib从$SPARK_ home /python/lib也被复制到用户hadoop主目录下创建的.sparkStaging如果我们已经显式地导出了任何东西，比如PYSPARK_PYTHON在.bash_profile中，或者在构建星火提交作业时在shell脚本中或在<

浏览 5提问于2020-08-15得票数 0

1回答

spark-shell的默认执行器和核心数量

如果我在spark shell中运行spark程序，该程序是否可能占用整个hadoop集群数小时？但是如果没有指定它们，而我只是运行"spark-shell或者是否有合理的默认值。

浏览 3提问于2016-05-10得票数 11

回答已采纳

3回答

sparksession.config()和spark.conf.set()有什么区别

、

我尝试使用这两种方法来设置spark.dynamicAllocation.minExecutors，但似乎只有第一种方法有效 .builder \.appName("test") \ .getOrCreate()spark2.conf.set("spark.dynamicAllocat

浏览 1提问于2018-10-09得票数 4

1回答

AWS EMR Spark --属性-未找到文件类com.amazon.ws.emr.hadoop.fs.EmrFileSystem

、、

我正在尝试使用以下命令从AWS EMR emr-5.20.0主节点提交Spark申请： spark-submit --executor-memory 4g --deploy-mode cluster如何正确地将属性文件传递到AWS EMR Apache Spark？

浏览 142提问于2019-02-28得票数 0

回答已采纳

2回答

如何通过Spark属性(Spark 1.6)启用或禁用spark-shell中的配置单元支持？

、、、

有没有什么配置属性，我们可以在spark 1.6中通过spark-shell显式地设置它来禁用/启用配置单元支持。我尝试使用以下命令获取所有sqlContext配置属性：但是，我不确定实际上需要哪个属性来禁用/启用配置单元支持。

浏览 3提问于2017-07-20得票数 6

回答已采纳

1回答

在Cloudera管理器中哪里可以找到spark.driver.maxresultsize属性？

、

有人能提供我可以在Cloudera Manager中更改环境变量spark.driver.maxresultsize值的位置吗？提前感谢

浏览 1提问于2016-01-20得票数 0

1回答

为什么星火规划师更喜欢排序合并连接而不是杂乱散列连接？

、、

为什么Spark2.3中的星火规划师更喜欢一种类型的合并连接而不是混搭的散列连接？换句话说，为什么spark.sql.join.preferSortMergeJoin配置属性是？杂乱的散列连接有什么问题？这是特定于星火，它是以分布式的方式进行计算，还是其他一些在联接算法中固有的东西？您可以找到JoinSelection执行规划策略和中使用的属性，如下所示： cas

浏览 0提问于2018-04-25得票数 18

回答已采纳

2回答

如何加载java属性文件并在Spark中使用？

、、

我想存储Spark参数，如输入文件，输出文件到Java属性文件中，并将该文件传递到Spark驱动程序中。我正在使用spark-submit提交作业，但找不到传递属性文件的参数。你有什么建议吗？

浏览 0提问于2015-06-29得票数 23

回答已采纳

1回答

对pyspark进行读-执行-写分析

、

尽管Spark的REST API可以获取许多用于执行分析的数据，但是否有其他方法可以获取应用程序的整体执行数据？每个任务在调度器中花费了多少时间，数据序列化需要多少时间？

浏览 3提问于2016-10-09得票数 1

1回答

如何避免火花中的ExecutorFailure错误

、

如何在执行星火作业时避免执行器故障。我们使用Spark1.6版本作为Cloudera 5.10的一部分。通常情况下，我会犯错误。

浏览 3提问于2017-11-27得票数 1

回答已采纳

1回答

SparkSession应用程序源代码Config属性在AWS默认情况下不覆盖JupyterHub & Zeppelin

、、、、

但是，当我创建具有自定义配置属性(应用程序名称、内核#、executor ram、# of executor、序列化程序等)的SparkSession时，它不会覆盖这些信任的默认值(在Spark UI和spark.conf.get(...)中的Environment选项卡下确认)。与任何Spark一样，EMR上的这些客户端应该使用我的自定义配置属性，因为Spark

浏览 0提问于2019-08-15得票数 0

1回答

ApacheSpark2.2.0块管理器内存计算

我在星火日志中看到了以下内容： INFO org.apache.spark.storage.BlockManagerMasterEndpoint:注册块管理器10.10.11.116:36011与366.3MB内存，BlockManagerId(驱动程序，10.10.11.116,36011，无)信息org.apache.spark.storage.BlockManagerMasterEndpoint:注册块管理器vm 1.1.novalocal:36075与414.4 MB内存，BlockManagerId(1，vm-souvik-1.novalocal

浏览 0提问于2018-03-28得票数 2

1回答