如何使用job spark测量hdfs上的读写时间？

、、、、

我刚刚开始大数据平台的鉴定工作，我想就如何在hdfs上测试读写性能提出建议。

浏览 11提问于2019-05-15得票数 0

1回答

如何将现有的增量表注册为单元

、、、、

我们使用spark以HDFS存储的delta格式读写数据(Databricks Delta表版本0.5.0)。请注意，目前我们正在cloudera平台上运行spark (2.4.0) (CDH 6.3.3)

浏览 1提问于2021-10-27得票数 1

1回答

如何有效地更新文件被频繁修改的Impala表

、、、

在HDFS中编写这些文件的过程是Spark结构化流(2.3.1) 因此，我的问题

浏览 2提问于2020-02-06得票数 12

2回答

使用Livy执行Spark作业，使用`--master yarn-cluster`而不进行系统范围的更改

、

我想使用从集群外部通过HTTP调用来执行Spark作业，其中Spark jar已经存在于HDFS中。我可以从集群节点上的shell中spark-submit该作业，例如： spark-submit --class io.woolford.Main --master yarn-cluster hdfs://hadoop01:8020/path/to/spark-

浏览 1提问于2016-11-30得票数 2

1回答

阅读Cassandra和Cloudera Hadoop中的Spark

、、、

作用域是从HDFS读取，过滤Spark，并将结果写入Cassandra。我正在打包并运行SBT。但是，对Cassandra的读写是通过 valcasRdd =

浏览 0提问于2014-01-13得票数 2

1回答

在hadoop文件系统上使用pyspark读写2D图像

、、、

我希望能够在hdfs文件系统上读写图像，并利用hdfs本地性。作为xml文件存储的基本附加信息。我想在hdfs文件系统上创建一个归档文件，并使用spark来分析归档文件。现在，为了能够充分利用spark+hdfs结构，我很难找到在hdfs文件系统上存储数据的最佳方法。据我所知，最好<e

浏览 0提问于2015-02-25得票数 7

1回答

星星团- hadoop上的读/写

、、、

我想从hadoop读取数据，在火花上进行处理，并在hadoop和弹性搜索上提取结果。我几乎没有工作节点来做这件事。星星之火独立集群是否足够？还是我需要使hadoop集群使用纱线或mesos？如果独立集群模式足够，是否应该在所有节点上设置jar文件，而不是纱线、mesos模式？

浏览 1提问于2017-02-21得票数 2

回答已采纳

1回答

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

、、

通常情况下，如果我将Scala用于Spark作业，我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它，但有时对于非常轻量级的作业，我可能在笔记本中使用未编译的Scala代码，或者使用spark-shell REPL，在这里我假设SparkContext已经可用。对于其中的一些轻量级用例，我可以等效地使用PySpark并与gcloud dataproc jobs s

浏览 2提问于2020-03-08得票数 5

回答已采纳

1回答

Spark结构化流运行过程中Presto的"not a Parquet file (太小)“

、、、、

我有一个管道设置，从Kafka读取数据，使用Spark结构化流处理数据，然后将拼花文件写入HDFS。数据查询的下游客户端使用Presto配置，以便将数据作为Hive表读取。Kafka --> Spark --> Parquet on HDFS --> Presto 一般来说，这是可行的。当Spark作业运行批处理时发生查询时，就会出现问题。星火作业在HDFS上创建一个零长度

浏览 3提问于2017-11-16得票数 1

回答已采纳

1回答

无法使用oozie运行示例火花作业

、、、

我正在尝试在CDH5.7集群上安装oozie。我通过cloudera文档中的步骤安装和配置了所有东西。在src文件系统上更改(预期为1462196523983，为1462196524951 ) oozie job -config /usr/share/doc/oozie/examples/apps/spark/job.properties -run J

浏览 0提问于2016-05-02得票数 1

1回答

火星城有什么办法保持每个阶段的运行时间吗？

、、

我正在测量一个不同资源配置的火花作业的运行时间，并需要比较每个阶段的运行时间。只有在作业运行时，我才能在UI中看到它们。我在Hadoop集群上运行我的工作，并使用Yarn作为资源管理器。有什么办法保持每一阶段的运行时间吗？有他们的原木吗？更新：在spark-defaults.conf

浏览 1提问于2019-07-25得票数 0

回答已采纳

1回答

在Spark程序中访问Oozie配置

、、

我正在尝试使用Scala中的sys.env()方法通过Spark程序访问它。当我没有Oozie调度时，我能够正确地访问Spark中的环境变量。然而，当我尝试使用Oozie调度我的程序时，程序抛出一个错误，它无法读取环境变量。<start to='spark-node' /> <

浏览 1提问于2020-01-14得票数 0

3回答

Oozie火花放电作业

、、、

我的工作流程很简单。xmlns="uri:oozie:spark-action:0.1"> <name-node上，与workflow.xml位于同一个文件夹中。文件夹-chmod 777和我的本地文件夹设置为chmod 777，我使用的是火花1.6。当我通过submit运行

浏览 7提问于2017-07-25得票数 1

回答已采纳

2回答

在spark* submit中将hdfs路径作为环境变量传递*

、、、

我正在尝试使用spark submit在yarn集群上运行我的spark程序，我正在读取一个放在hdfs中的外部配置文件，我正在运行作业- ./spark-submit --class com.sample.samplepack.AnalyticsBatch --master yarn-cluster --num-executors 3 --://namenode:8020/tmp/some.conf&

浏览 2提问于2015-04-15得票数 1

1回答

如何修复‘scala.collection.immutable.$colon$colon.hd$1()Ljava/lang/Object’：java.lang.NoSuchMethodError‘

、、

因此，我开始编写自己的Oozie工作流，其中包含Apache操作，事情是，尽管我清楚地使用Scala2.11.8和Spark2.3.0打包了我的源代码，但这条消息说有一个包含Hortonworks沙箱的码头容器，运行在ec2机器上我已经使用命令行更新了Oozie共

浏览 12提问于2019-10-18得票数 1

1回答

Spark CTAS上的配置单元使用直接SELECT失败，但使用SELECT GROUP BY成功

、、

我已经在Spark上成功地使用了Hive几个星期，执行了包含聚合数据的CTAS语句。最近，我需要使用一个直接的select语句(没有GROUP BY)来执行一个CTAS，但令人惊讶的是它失败了。我发现我可以在MR上用Hive执行语句。我已经创建了一个测试来隔离我的问题。文件(使用SELECT GROUP BY)...this完成得很好： cat > testhiveonspark_working.hql << EOF

浏览 5提问于2016-11-13得票数 1

2回答

利用Spark/Scala在HDFS文件中实现迭代写入

、、

我正在学习如何使用Spark/Scala对HDFS中的文件进行读写。我无法写入HDFS文件，文件已创建，但它是空的。我不知道如何创建一个用于在文件中写入的循环。代码是：import org.apache.spark.SparkConf import org.apache.spark.SparkC

浏览 1提问于2017-06-15得票数 1

2回答

当使用oozie火花操作时，在一个节点上生成的火花驱动程序可以找到自定义的log4j配置文件，但在其他节点上却找不到。为什么？

、、、

使用oozie运行火花动作工作流有问题。如果驱动程序是在节点(172.12.0.27)上生成的，则日志配置是始终正确的。如果驱动程序在其他节点上生成(172.12.0.18,172.12.0.20)，则日志配置总是错误的。我怎么才能追踪问题？如果使用submit与自定义log4j配置文件，则任何节点上都没有问题.像下面这样<e

浏览 1提问于2019-08-26得票数 0

1回答

用工人的帮助从星火中阅读巨大的MongoDB藏品

、、、

我想阅读一个来自Spark的庞大的MongoDB集合，创建一个持久的RDD并对其进行进一步的数据分析。我是否可以使用工作者/从器并行地从MongoDB读取数据，然后将其保存为持久数据并使用它。

浏览 3提问于2015-09-09得票数 2

回答已采纳

1回答

如何根据HDFS中的数据创建外部星表

、

我已经将HDFS中的一个拼花表加载到一个DataFrame中：现在我想将这个表公开给Spark，但是这必须是一个持之以恒的表，因为我想通过JDBC连接或其他Sessions来访问它。快速的方法可以是调用df.write.saveAsTable方法，但在这种情况下，它将实现DataFrame

浏览 1提问于2018-04-26得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将现有的增量表注册为单元

如何有效地更新文件被频繁修改的Impala表

使用Livy执行Spark作业，使用`--master yarn-cluster`而不进行系统范围的更改

阅读Cassandra和Cloudera Hadoop中的Spark

在hadoop文件系统上使用pyspark读写2D图像

星星团- hadoop上的读/写

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

Spark结构化流运行过程中Presto的"not a Parquet file (太小)“

无法使用oozie运行示例火花作业

火星城有什么办法保持每个阶段的运行时间吗？

在Spark程序中访问Oozie配置

Oozie火花放电作业

在spark* submit中将hdfs路径作为环境变量传递*

如何修复‘scala.collection.immutable.$colon$colon.hd$1()Ljava/lang/Object’：java.lang.NoSuchMethodError‘

Spark CTAS上的配置单元使用直接SELECT失败，但使用SELECT GROUP BY成功

利用Spark/Scala在HDFS文件中实现迭代写入

当使用oozie火花操作时，在一个节点上生成的火花驱动程序可以找到自定义的log4j配置文件，但在其他节点上却找不到。为什么？

用工人的帮助从星火中阅读巨大的MongoDB藏品

如何根据HDFS中的数据创建外部星表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐