Spark SQL计算它不应该计算的行

、、

用户标识符列存储为数组的数组(WrappedArray作为它的Spark)，其中每个子数组都将标识符类型作为第一个元素，并将其值作为第二个元素。sqlContext.udf.register("IDfromUID",(uid: String) => IDfromUID(uid))sqlContext.sqlID.length match {

浏览 3提问于2016-08-27得票数 0

1回答

如何计算作为Mongo文档作为Mongo Spark Connector输入发送的dataframe行大小

、

我想把dataframe作为spark mongo连接器的输入。但是我想要删除大于16 MB大小的记录，而不是从Mongo DB获得最大大小异常。有没有人能告诉我如何有效地筛选行？感谢您的帮助！

浏览 15提问于2018-07-30得票数 0

1回答

Spark与Hive的差异与ANALYZE TABLE命令-

、、、

从Spark对Hive表运行的ANALYZE TABLE命令不会提供与从Hive发出的相同命令相同的性能改进。例如，我将一个数据帧插入到一个空的Hive表中： output.write.insertInto(“XXXXXXXX”) 然后运行analyze table命令：- spark.sql("ANALYZE_c0 || 12345678 |1 row selected (36.038 se

浏览 261提问于2019-01-05得票数 2

回答已采纳

2回答

pySpark: groupBy()有可能每个组只有一个节点吗？

、、、、

我用pySpark计算每组矩阵。如果Spark将任何给定组的行存储在一个节点上，则计算速度会更快，因此Spark可以在本地计算每个矩阵。恐怕节点间的合作需要更长的时间。map()和groupBy()通常都能实现这样的目标吗？如果可能的话，我应该把它指定为选项吗？注意：矩阵包括计算每一行与前一行之间的距离，在每个(排序)组内。

浏览 2提问于2016-06-10得票数 0

回答已采纳

1回答

如何在Spark中使用sqrt on Double

、、

我试图手工计算星火(Scala2.11)上的均方根误差(RMSE)。作为上面的截图，我计算每一行的平方误差(SE)。predicted_with_sqr_err = predicted.withColumn("se", pow(($"medianHouseValue" - $"prediction"), lit(2))) 然后计算均方误差但是当我试图用平方根来计算均方误差(RMSE)时。<co

浏览 2提问于2018-11-12得票数 1

回答已采纳

3回答

在scala中如何将sql查询行中的结果转换为双精度

、、

我尝试获得spark sql查询的结果，并在Scala中为它们做一些计算。val sql_DF = spark.sql("SELECT count(distinct(my_id)) total_id FROM some_ids_table ") val total_ids= sql_DF.select("total_id").first().toSeq.asInstanceOf[Seq[Double]][0]

浏览 1提问于2019-10-29得票数 0

1回答

如何为火花中的多个数据文件生成相同的UUID？

、、

我有一个从文件中读取的df然后我给它一个UUID列现在我创建了一个视图现在，我创建了两个接收视图中的数据的新的dataframes，这两个dataf

浏览 1提问于2021-05-14得票数 1

回答已采纳

1回答

为什么在Databricks上用Python显示单个字符串值要花这么长时间？

、、

我有一个分析各种时间表的程序，我想显示正在运行的计划。要获得计划名称，我有一个简单的spark.sql字符串：SELECT distinct schedule_name FROM global_temp.rawSchedDataTemp数据集没有那么大(大约100,000行)。我确信有一个潜在的过程正在进行，但真的要花这么长时间才能得到一个单一<em

浏览 7提问于2022-05-25得票数 -1

回答已采纳

2回答

避免对spark SQL查询使用笛卡尔连接

、、

我试图从两个临时表的总数中计算processRate，但我得到了错误“检测到隐式笛卡尔乘积用于逻辑计划之间的内部连接”，其中我甚至没有执行连接。我相信这个错误可以通过以正确的格式重构查询来解决，我需要您的帮助。下面是查询， spark.sql("""SELECT (se

浏览 10提问于2021-04-05得票数 0

回答已采纳

2回答

限制数据帧分区的最大大小

、、

假设我想将每个文件的最大大小限制为1MB。我可以多次执行写操作，并增加每次重新分区的参数。有没有一种方法可以提前计算使用什么参数进行重新分区，以确保每个文件的最大大小小于指定的大小。我想可能会有一些病态的情况，所有的数据最终都在一个分区上。因此，假设我们只想确保平均文件大小小于某个指定的大小，比如1MB，那么就做一个较弱的假设。

浏览 1提问于2018-08-28得票数 12

回答已采纳

2回答

Hive和Spark的执行差异

、、

所有人:我正在寻找有更多知识的人来检查我对蜂巢和火花的理解我一直在研究不同的大型数据库解决方案，我试图了解Hive和Spark在执行方面的差异。我尝试安装Hadoop、Hive和Spark，看看它们的性能如何。我能够让Hadoop和Spark工作。我不能让蜂巢去工作。当我在Spark中运行查询，在它们通过优化器之后，似乎最大的好处是在最早的时候只从源中选择相关的表数据。在内存存储方面也存在差异(Hive频繁地返回H

浏览 44提问于2021-04-09得票数 0

回答已采纳

1回答

在SparkSQL中加入表的顺序以获得更好的性能

、、、

我是Spark-SQL刚开始阅读Hive表的人。我想知道星火如何执行多表 Join。我在某个地方读到，建议始终将最大的表保留在联接顺序的顶部，以此类推，这有利于提高Join效率。我在Join中看到，Spark按顺序将第一个表(最大的)加载到内存中，并流另一个有助于Join性能的表。但是，我对这种策略如何提高性能感到困惑，因为最大的表(在大多数情况下)并不适合内存和磁盘溢出。请您从连接类型( large & outer)和连接性能两个方面，阐明和

浏览 6提问于2020-06-20得票数 4

1回答

Spark-submit命令的内存参数

、、

如何计算火花提交命令的最佳内存设置？--driver-memory 2G --num-executors 10 \--class com.spark</em

浏览 2提问于2016-11-03得票数 0

回答已采纳

2回答

从卡夫卡读到火花的数据在登记为表格后消失了？

、、

考虑从dataframe写入kafka的数据，然后从kafka读取回一个新的dataframe：val wdf = airj.write .option("topic", "air2008")现在把数据读回来 // Read from kafka into sp

浏览 0提问于2019-04-07得票数 4

回答已采纳

1回答

在火星雨上算了两次，也许我不懂懒散？

、、

自从上次使用spark太久了，我再次使用Spark3.1，下面是我的问题:我还有2000万行加入400米行，原始代码是：for time这是一个静止运行的代码，中间的SortMergeJoin是解耦的过滤器，第二个“过滤器”只过滤一点点，但是在左边和右边，你可以看到它再次计算SortMergeJoin，而不是重用先前计算出来的。

浏览 1提问于2021-08-28得票数 1

1回答

在Spark中的数据帧中选择非空值

、

我正在读取Spark 2.0中的CSV文件，并使用以下内容计算列中的非空值：当我使用spark-shell测试它时，它工作得很好。当我创建一个包含代码的jar文件并将其提交给spark-submi

浏览 5提问于2016-11-19得票数 2

3回答

电火花数据格式中所有列中的唯一元素数

、、、、

如何才能计算的每一列中的唯一元素数：from pyspark.sql import SparkSession df_spark

浏览 0提问于2018-12-13得票数 11

回答已采纳

1回答

Apache Spark或SQL* server解决方案是否适用于内存受限的本地数据操作？*

、、

我在工作时被分配了一个8 8GB内存的桌面，我不能修改它。我的工作涉及对一组~1 1GB、~8M行表的数据操作。如果我可以合并所有的文件，我需要做的某些分析将非常容易实现，但这意味着R，这是我目前使用的工具，将无法加载合并后的文件。我四处打听，被告知使用Apache Spark或设置本地SQL服务器就可以解决这个问题，并让我忽略数据处理步骤的内存限制(预期的输出总是由少数总计数组成)。(作为一个额外

浏览 11提问于2017-03-17得票数 0

回答已采纳

1回答

使用scala和spark-sql计算表统计信息

、

我在公司糟糕的数据环境中使用Spark 2.4.0和scala 2.11.12。在我的项目中，我创建了许多包含大量数据的表。现在，我想计算我创建的表的统计数据。我发现以下scala/spark sql语句可以做到这一点： // example 1 val res = spark.sql("ANALYZE TABLE mytablename COMPUTE ST

浏览 59提问于2020-07-06得票数 0

1回答

对数据中每一行执行sql查询的熊猫udf进行优化？

、、、、

我正在利用pyspark和熊猫udfs来加速对包含大约350万行的数据帧的计算。本质上，我是从符合某些条件的表中加载行。然后，我将这些数据按“some_col”列进行分组，大致应该将数据分成4组。然后，我应用一个计算metric_1和metric_2的函数，其中每个度量都是表中与当前行的某些值相匹配的条目数。最后的计算将在final_result中设置为(metr

浏览 2提问于2019-10-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何计算作为Mongo文档作为Mongo Spark Connector输入发送的dataframe行大小

Spark与Hive的差异与ANALYZE TABLE命令-

pySpark: groupBy()有可能每个组只有一个节点吗？

如何在Spark中使用sqrt on Double

在scala中如何将sql查询行中的结果转换为双精度

如何为火花中的多个数据文件生成相同的UUID？

为什么在Databricks上用Python显示单个字符串值要花这么长时间？

避免对spark SQL查询使用笛卡尔连接

限制数据帧分区的最大大小

Hive和Spark的执行差异

在SparkSQL中加入表的顺序以获得更好的性能

Spark-submit命令的内存参数

从卡夫卡读到火花的数据在登记为表格后消失了？

在火星雨上算了两次，也许我不懂懒散？

在Spark中的数据帧中选择非空值

电火花数据格式中所有列中的唯一元素数

Apache Spark或SQL* server解决方案是否适用于内存受限的本地数据操作？*

使用scala和spark-sql计算表统计信息

对数据中每一行执行sql查询的熊猫udf进行优化？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐