选择spark_spark数据选择_spark按类型选择列 - 腾讯云开发者社区

、、、

在哪种场景下，我们应该更倾向于使用spark RDD来编写解决方案，在哪种场景下，我们应该选择使用spark-sql。我知道spark-sql提供了更好的性能，它对结构和半结构数据的处理效果最好。但是，在选择spark Rdd和spark-sql时，我们还需要考虑哪些因素。

浏览 1提问于2020-05-29得票数 0

1回答

TypeError：“JavaPackage”对象不可调用

、、、、

/opt/spark/bin/spark-submit --jars spark-streaming_2.10-2.0.0.jar test_kafka.py broker.txt "localhostkvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers}) File "/opt/sparkpython

浏览 9提问于2016-08-29得票数 3

1回答

在EMR中将spring active profile传递给Spark App

、、

我已经开发了一个Spark App，它使用Spring Boot，并且Spark Job被提交到EMR集群，一个基于事件的EMR集群。如果Spark应用程序不是Spring Boot应用程序，这将按预期工作。使用Spring Boot应用程序，我们需要改变构建uber JAR文件的方式。=-Dspring.profiles.active=dev" --conf "spark.driver.extraJavaOptions=-Dspring.profiles.active=dev" 无论我做什

浏览 3提问于2020-02-19得票数 0

1回答

使用sparklyr软件包试图连接到Rstudio中的星火时出错

、

我使用下面的命令连接到来自rstudio的星星之火： Parameters: --class, sparklyr.Backend\AppData\Local\rstudio

浏览 2提问于2017-07-10得票数 0

1回答

Spark over Yarn -不正确的应用程序主控选择

、、

executor-memory 2g \ lib/myapp.jar \ 当我查看Web UI以了解幕后到底发生了什么时，我注意到YARN作为应用程序主节点选择了一个不是Spark Master的节点。这是一个问题，因为实际的Spark Master节点强制参与分布式计算，导致不必要的数据网络传输(当然，因为Spark master一开始没有数据)。根据我在测试中看到的，Yarn以一种完全随机的方式选择AM，而我找不到一种方法来强迫他<e

浏览 2提问于2015-02-04得票数 2

6回答

spark 2.1.0会话配置设置(pyspark)

、、、

我正在试图覆盖星星之交/火花上下文默认配置，但它正在选择整个节点/集群资源。() spark.conf.set('spark.executor.cores', '3') spark.conf.set('<em

浏览 12提问于2017-01-27得票数 48

回答已采纳

1回答

Spark .load()是否将所有数据都放入DF，然后执行字段(“.select”)？

、、

我读到Spark retrieve only retrieve，但是我如何使用Scala来检查呢？我正在使用Scala将数据从ES索引加载到Spark DF。如果我使用以下命令，则只需选择所需的字段： val indexData = sparkSession.read .option("scroll.limit",100000) .select("country") spark会

浏览 30提问于2021-10-06得票数 1

回答已采纳

1回答

星星之火sql SQLContext

、、、

我试图通过SQLContext.sql在Spark应用程序中从MSSQL数据库中选择数据。连接可以工作，但我无法从表中选择数据，因为它总是在表名上失败。找到 // https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.11 libraryDependencies+= "org.apache.spark" %

浏览 0提问于2017-07-13得票数 1

回答已采纳

1回答

如何调整星火以避免磁盘溢出排序？

理论上，内存中有足够的空间来容纳数据(除非Spark用于排序的开销很大)。然而，我们经历了泄漏。有办法准确地计算出每个执行者需要多少内存才能工作吗？

浏览 4提问于2021-11-10得票数 1

1回答

连接到tableau中的spark数据框

、、、

我们试图通过spark SQL连接在tableau中生成报告，但我发现我们最终连接到了hive meta-store。如果是这样的话，这种新的spark SQL连接有什么优势呢？有没有一种方法可以使用spark SQL从tableau连接到持久的spark数据帧。

浏览 0提问于2016-02-05得票数 0

1回答

如何使火花放电和SparkSQL在星火上执行蜂巢？

、、、、

通过使用spark-shell / pyspark，我还遵循并实现了创建Hive表，加载数据，然后正确选择。|spark.master| yarn| >>> spark.sql("set spark.submit.d

浏览 0提问于2020-02-23得票数 0

回答已采纳

1回答

设置allowDeselction组件的“ButtonBarButton”属性时的问题

、、、、

这意味着当您在ButtonBar控件中选择一个按钮时，该按钮将保持所选状态，直到您选择另一个按钮为止。因此，在声明ButtonBarSkin中的按钮组件时，Im将ButtonBarSkin属性设置为false。--- @de

浏览 4提问于2013-04-11得票数 1

回答已采纳

1回答

未能找到“火花-提交2.cmd”

、、

(master = master, spark_home = spark_home, spark_version = version, : > s

浏览 1提问于2020-11-01得票数 0

回答已采纳

1回答

需要帮助解决星火流依赖关系(Scala )

、、、

:= "demoSpark" "org.apache.spark" % "spark</

浏览 1提问于2017-08-08得票数 1

回答已采纳

1回答

如何在客户端模式下设置spark* driver maxResultSize？*

、、、

因此，设置配置的方法是实际编辑启动它的shell脚本：spark-env.sh...according to this documentation 。如果我想更改驱动程序的最大结果大小，我通常会这样做：spark.driver.maxResultSize。与spark-env.sh文件中的内容等效的是什么？一些环境变量很容易设置，比如SPARK_DRIVER_MEMORY显然是spark.driver.memory的设置，但是spark.driver.maxResultSize的环境变量

浏览 31提问于2016-07-16得票数 3

回答已采纳

3回答

如何添加EMR火花步骤？

、、

根据 

浏览 1提问于2020-05-09得票数 2

回答已采纳

1回答

BigQuery存储应用编程接口:从Spark* Pandas UDF使用客户端的最佳实践？*

、、

我有一个spark脚本，需要为每一行进行60个api调用。目前，我使用BigQuery作为数据仓库。抱歉，如果代码没有为这个用例正确完成，我是spark和BigQuery的新手。

浏览 9提问于2019-12-12得票数 1

2回答

sbt项目的火花，但没有找到一些软件包的上下文？

、、

build.sbt内容：主要代码：如上图所示，红色部分是错误的，我觉得很奇怪，如： toInt方法应该是内置函数，但这没有找到它

浏览 3提问于2015-08-03得票数 1

回答已采纳

1回答

连接卡桑德拉和火花时出错

、

并建造它git checkout v1.4.0并使用连接器 bin/spark-shell --jars ~/spark-cassandra-connector-assembly-1.4.0-

浏览 5提问于2016-09-11得票数 2

回答已采纳

2回答

配置单元查询失败，出现"Unable to fetch table test_table. Invalid method name. 'get_table_req'“，pyspark为3.0.0 & Hive为1.1.0

、、、、

在一个相当新的环境中深入研究spark的POC，并检查spark功能，但在pyspark终端中运行sql查询时出现问题，而Hive正在工作，因为我们可以查询元数据。$ pyspark --driver-class-path /etc/spark2/conf:/etc/hive/conf>>&

浏览 500提问于2020-08-19得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

我们应该什么时候使用Spark-sql，什么时候使用Spark RDD

TypeError：“JavaPackage”对象不可调用

在EMR中将spring active profile传递给Spark App

使用sparklyr软件包试图连接到Rstudio中的星火时出错

Spark over Yarn -不正确的应用程序主控选择

spark 2.1.0会话配置设置(pyspark)

Spark .load()是否将所有数据都放入DF，然后执行字段(“.select”)？

星星之火sql SQLContext

如何调整星火以避免磁盘溢出排序？

连接到tableau中的spark数据框

如何使火花放电和SparkSQL在星火上执行蜂巢？

设置allowDeselction组件的“ButtonBarButton”属性时的问题

未能找到“火花-提交2.cmd”

需要帮助解决星火流依赖关系(Scala )

如何在客户端模式下设置spark* driver maxResultSize？*

如何添加EMR火花步骤？

BigQuery存储应用编程接口:从Spark* Pandas UDF使用客户端的最佳实践？*

sbt项目的火花，但没有找到一些软件包的上下文？

连接卡桑德拉和火花时出错

配置单元查询失败，出现"Unable to fetch table test_table. Invalid method name. 'get_table_req'“，pyspark为3.0.0 & Hive为1.1.0

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐