spark 多sql并发_多并发_python多并发 - 腾讯云开发者社区

、、

源表没有任何包含唯一值的列，以便Spark对传入的数据进行均匀分区。因此，我将row_number()应用于我正在读取的数据，如下所示：> spark.executor.instances=4 > spark.execuor.memory=2g spark.executor.cores=4 spark</em

浏览 104提问于2021-03-02得票数 3

2回答

如何连接Jmeter和Databricks spark集群

、、、

我想使用与spark Cluster关联的JDBC连接将Jmeter与Databricks (Spark Cluster)连接需要帮助

浏览 1提问于2021-04-02得票数 1

1回答

Spark SQL中的配置是如何共享/隔离的？

、、、、

因此，我有我的spark context sc，从中我得到了我的spark sql上下文，sqlContext.sql("setspark.sql.shuffle.partitions=2") 有时我想使用2作为混洗分区，但在其他一些时刻(可能是并发的)，我希望使用200。

浏览 0提问于2016-07-06得票数 0

1回答

我有一个有400万条记录的表，每天都有新的数据，我需要在处理新数据后更新表。目前我就是为了这个目的而这么做的。我使用的是scala。df.rdd mapPartitions (_ grouped batchSize) foreach { batch => val connection = getConnection(); batch.foreach { row => val query = "UP

浏览 1提问于2016-09-06得票数 0

2回答

将增量湖写入AWS S3 (没有数据库)

、、、

at org.apache.spark.sql.delta.storage.HDFSLogStore.write(HDFSLogStore.scala:64) at org.apache

浏览 5提问于2020-05-13得票数 5

回答已采纳

2回答

如何刷新表并并发进行？

、、

我想定期刷新一些缓存的表(由spark提供的DataSource加载，比如parquet、MySQL或用户定义的数据源)。 spark.read.format("").load().createTempView("my_table")spark.sql("cache table my_tablespark.sql("refresh table my_table") 还是

浏览 5提问于2017-08-22得票数 18

3回答

读取或写入拼图格式数据时出错

、、、

我使用Databricks来执行 org.apache.spark.sql.AnalysisException: Multiple sources found for parquet (org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2, org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat),

浏览 28提问于2020-08-25得票数 2

1回答

如何实现比spark集群内核数更高的并行度？

、

作为最后一步，我有一个通过网络发送数据的spark作业。另一端的接收器可以处理比我当前发送的多10到50倍的并发请求，所以我正在寻找一种方法来进一步并行化，而不是内核的数量。spark-submit的--num-executors选项没有帮助。选项也是如此。spark.dynamicAllocation.enabledspark.dynamicAllocation.maxExecutors

浏览 6提问于2020-07-31得票数 0

回答已采纳

1回答

如何与CSV文件中的数据集一起使用决策树？

、、、、

我想像下面的代码一样使用Spark的org.apache.spark.mllib.tree.DecisionTree，但是编译失败。import org.apache.spark.ml.Pipelineimport org.apache.spark.sql.

浏览 4提问于2017-05-22得票数 0

1回答

如何内省并预加载MongoDB中的所有集合到Spark* SQL目录中？*

、、、

在学习Spark SQL时，我一直使用以下方法将集合注册到Spark SQL目录中并对其进行查询。Seq(MongoPerson("John", "Doe")) .write .format("com.mongodb.spark.sql.DefaultSource.option("collection", "peeps")

浏览 25提问于2021-07-02得票数 2

回答已采纳

2回答

将文件读取并附加到spark数据文件中

但其中一个文件的列数比前一个文件多。如何仅为所有其他文件选择第一个文件中的列？from pyspark.sql import SparkSession schema = StructType([])df_spark=spark.createDataFrame(sc.emptyR

浏览 1提问于2019-09-06得票数 3

回答已采纳

1回答

Spark Streaming -作业以默认spark.streaming.concurrentJobs设置并发运行

、

我在Spark Streaming Job中遇到了一种奇怪的行为。我们已使用spark.streaming.concurrentJobs的默认值1。同一流式作业在批处理间隔设置为10分钟的情况下正常运行了一天多。突然，相同的作业开始对所有传入的批处理并发运行，而不是将它们放入队列中。以前有没有人遇到过这种情况？这将是非常有帮助的！

浏览 1提问于2017-04-18得票数 3

1回答

控制在spark* thrift服务器中运行sql时的执行器数量*

、、

我有一个spark thrift服务器，用户可以向这个服务器提交spark sql。我希望我可以控制执行器的数量，这将用于运行用户的sql.That是，我不希望执行器将尽可能多的(稍后提交的sql可能要等待) 我会问这是否可能。

浏览 29提问于2019-12-26得票数 0

2回答

Databricks:如何在%SQL查询中获取当前用户

、、、、

这将是一个示例(any_object将是检索使用视图或其所属用户组的当前用户的值的命令)：CREATE VIEW db.table AS SELECT * FROM WHERE column1

浏览 3提问于2020-04-01得票数 3

1回答

如何将列表拆分成多个分区并发送给执行器

、、、

当我们使用spark从csv for DB读取数据时，如下所示，它会自动将数据拆分到多个分区并发送到执行器 spark .option("delimiter", ",") .load(inputFile) 目前，我有一个id列表： [1,2,3,4,5,6,7,8,9,...1000] 我想要做的是将这个列表分割成多个分区，并发送到每个execut

浏览 10提问于2019-02-05得票数 0

回答已采纳

1回答

如何向spark* thrift服务器提交配置单元查询？*

下面是一个简短的故事：非常感谢!

浏览 0提问于2016-03-24得票数 1

1回答

如何使用嵌套的案例类模式来模拟Spark？

、

我还尝试过创建模拟的dataframe，这是一种导致错误的不同方式：import org.apache.spark.sql.Encoders val expected = spark.cre

浏览 0提问于2018-09-18得票数 0

回答已采纳

2回答

如何将DataFrame的所有行存储到本地值(例如并发队列)？

、、

我正在尝试迭代我从使用Spark执行结构化查询时获得的Row(吡火花)。代码大致如下所示： .builder \ .config(...) \ result_set = spark</

浏览 0提问于2018-02-27得票数 0

回答已采纳

3回答

无法创建Extract - Tableau和Spark SQL

、、、

我正在尝试从Spark SQL中提取信息。创建解压缩时显示以下错误消息。

浏览 82提问于2019-05-30得票数 2

2回答

优化--未能解析SQL

、、

()我想把它们压紧：spark.sql("OPTIMIZE my_delta_table注意：from pyspark.sql import SparkSession spark =

浏览 1提问于2020-08-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么在提供了足够的内存和分区后，spark应用程序崩溃并出现异常java.net.SocketException: Connection reset？

如何连接Jmeter和Databricks spark集群

Spark SQL中的配置是如何共享/隔离的？

来自Spark* Mysql的快速更新*

将增量湖写入AWS S3 (没有数据库)

如何刷新表并并发进行？

读取或写入拼图格式数据时出错

如何实现比spark集群内核数更高的并行度？

如何与CSV文件中的数据集一起使用决策树？

如何内省并预加载MongoDB中的所有集合到Spark* SQL目录中？*

将文件读取并附加到spark数据文件中

Spark Streaming -作业以默认spark.streaming.concurrentJobs设置并发运行

控制在spark* thrift服务器中运行sql时的执行器数量*

Databricks:如何在%SQL查询中获取当前用户

如何将列表拆分成多个分区并发送给执行器

如何向spark* thrift服务器提交配置单元查询？*

如何使用嵌套的案例类模式来模拟Spark？

如何将DataFrame的所有行存储到本地值(例如并发队列)？

无法创建Extract - Tableau和Spark SQL

优化--未能解析SQL

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐