避免对spark SQL查询使用笛卡尔连接

文章/答案/技术大牛

发布

2回答

sql、apache-spark、apache-spark-sql

我试图从两个临时表的总数中计算processRate，但我得到了错误“检测到隐式笛卡尔乘积用于逻辑计划之间的内部连接”，其中我甚至没有执行连接。我相信这个错误可以通过以正确的格式重构查询来解决，我需要您的帮助。下面是查询， spark.sql("""SELECT ((a.total - b.totaltotal from

浏览 10提问于2021-04-05得票数 0

回答已采纳

2回答

如何在Spark SQL中使用交叉连接和交叉应用

scala、apache-spark、apache-spark-sql

我是Spark和Scala的新手，我编写Spark SQL代码。我在我的逻辑中应用交叉连接和交叉应用的情况。在这里，我将发布SQL查询，我必须将其转换为spark SQL。Table1.Column1,Table2.Column2,Table3.Column3我需要上面的查询转换成Spark SQL中

浏览 4提问于2016-11-23得票数 4

1回答

左连接错误: org.apache.spark.sql.AnalysisException:检测到隐式笛卡尔乘积

scala、apache-spark、apache-spark-sql

"left join“需要在一个数据帧上使用"spark.sql.crossJoin.enabled=true”或调用"persist()“。SELECT * FROM LHS left join RHS on LHS.R = RHS.R 如何在没有"spark.sql.crossJoin.enabled=true“和持久化数据帧的情况下使”左连接“工作？线程"main“org.apache.spark.sql<

浏览 0提问于2019-09-07得票数 0

4回答

星火2.x的spark.sql.crossJoin.enabled

apache-spark、google-cloud-dataproc

我使用的‘预览’谷歌DataProc图像1.1与火花2.0.0。为了完成我的一个操作，我必须完成一个笛卡尔积。自2.0.0版本以来，创建了一个禁止笛卡尔产品的火花配置参数(spark.sql.cross Join.enabled)，并引发异常。如何设置spark.sql.crossJoin.enabled=true，最好是使用初始化操作？spark.sql.crossJoin.enabled=true

浏览 11提问于2016-08-17得票数 11

回答已采纳

2回答

配置单元或Spark查询中的分解问题

apache-spark、hive、apache-spark-sql、hiveql

SELECT的输出应包含以下列： company_iddevice_1_datedevice_15_value … LATERAL VIEW explode(device_15.measurements) as d15 我可以使用此SQL的结果作为另一个SQL的输入，该SQL将提取每个设备的max(日期)记录。我的方法

浏览 27提问于2021-10-15得票数 0

回答已采纳

1回答

避免在sparkSQL中使用笛卡尔连接

scala、apache-spark、apache-spark-sql、datastax-enterprise

.* from a join b on a.create_date between start_date and end_date编辑：No. of executors 2No. of cores 5

浏览 3提问于2016-08-30得票数 0

1回答

在Spark* Struct流作业中有多个查询，那么如何缓存数据呢？*

apache-spark、spark-structured-streaming

spark作业中有多个查询，当我开始这个作业时，我发现每个查询都会与kafka建立连接，并且它们之间不共享数据，所以如何缓存数据以避免多次读取相同的数据。我曾尝试使用命令“cache table cache_table;”缓存表，然后 Queries with streaming sources must be executed with writeStream.start();;org.apache.spark.sql.catalyst

浏览 34提问于2019-01-30得票数 0

1回答

对笛卡尔爆炸的认识

sql、performance、linq、orm、entity-framework-core

在阅读有关笛卡尔爆炸的文章时，几乎所有的文章都与EF核有关。避免笛卡尔爆炸的推荐方法是拆分查询(这也会导致问题)。用FromSqlRaw编写一个适当的查询，难道不可能解决笛卡尔爆炸的问题吗？由于大多数文章都是关于EF /LINQ的，所以在编写原始sql时可以避免这种情况，或者ORM中是否有其他属性导致了这个问题？

浏览 4提问于2022-04-11得票数 1

2回答

具有高成本的合并笛卡尔连接

sql、database、oracle、sql-tuning

具有高成本的合并笛卡尔连接。我们正在查询数据库以填充一些记录的票证，但是查询形成了导致上述问题的查询，并由我们的性能团队传达。在这里，我对Java编程很感兴趣，但我对这些连接没有太多的了解。有没有人可以帮我解决下面的问题，以避免高成本的合并笛卡尔连接。

浏览 15提问于2019-02-25得票数 0

2回答

当对Snowflake使用Spark* Connector时，在哪里处理该查询？*

apache-spark、apache-spark-sql、snowflake-cloud-data-platform

例如，如果我使用Spark Connector从客户端(在EMR -1上运行)运行一个查询，以从Snowflake (在EMR -2上运行)获取数据，那么该查询实际上是在哪里执行的？它是在Snowflake本身上处理，然后返回结果，还是在客户端EMR上作为spark作业处理？当我看到Snowflake上的查询历史时，它也显示了执行的查询。这是否意味着它也会消耗那里的资源？

浏览 0提问于2020-02-25得票数 1

1回答

如何将HiveQL查询转换为相应的DataFrame操作？

apache-spark、apache-spark-sql

在我的用例中，我在myRDD.map()函数中使用hivecontext。我得到一个错误，那就是java.lang空指针接口异常。我意识到，在地图逻辑中使用hiveContext是不可能的。hivecontext用于触发对另一个表(conf)的hiveql查询。hiveContext.sql()。查询如下所示id == 178 and config_

浏览 1提问于2017-05-30得票数 0

3回答

Spark异常“无法广播大于8 8GB的表”，'spark.sql.autoBroadcastJoinThreshold'：'-1‘不工作

apache-spark、pyspark、apache-spark-sql、broadcast、pyspark-dataframes

在我们的一个Pyspark作业中，我们有一个场景，我们在一个大的数据帧和相对较小的数据帧之间进行连接，我相信spark正在使用广播连接，我们遇到了以下错误 org.apache.spark.SparkException$$anonfun$withExecutionId$1.apply(SQLExecution.scala:101) at org.apache.spark.sql.execution.SQLExecution(SQLExecution.scala:

浏览 752提问于2020-04-22得票数 0

1回答

使用JDBC连接到EMR上的Spark SQL

amazon-web-services、jdbc、pyspark、apache-spark-sql、emr

我已经在EMR上运行了spark，并且我一直在尝试使用JDBC hive驱动程序从SQLWorkbench连接到spark-SQL，但都是徒劳的。我已经在EMR上启动了thrift服务器，并且能够从Tableau/SQL Workbench连接到端口10000(默认)上的Hive。当我试图运行一个查询时，它会触发一个Tez/Hive作业。但是，我想使用Spark运行查询。在电子病

浏览 1提问于2016-11-19得票数 1

1回答

Apache Spark* ALS推荐方法*

apache-spark、machine-learning、bigdata、recommendation-engine、apache-spark-mllib

尝试使用Spark MLLib的ALS构建推荐系统。目前我们有8个节点和64 be的RAM，我想这应该足够存储数据了。 val users

浏览 3提问于2015-03-18得票数 7

1回答

优化spark* sql笛卡尔连接*

python、python-3.x、apache-spark、pyspark、apache-spark-sql

我必须在两个分别为3M和1M的数据集上执行笛卡尔连接。这意味着3M数据集中的每一行都应该连接到1M数据集中的每一行。在那之后，我必须在笛卡尔积上执行多个其他连接。使用PySpark运行代码大约需要9天。有什么方法可以优化它吗？

浏览 12提问于2019-12-30得票数 0

4回答

mysql表问题？

mysql

我为聊天应用程序准备了两张桌子chat_data(con_id, chat_text}SELECT c.chat_text, u.usernameWHERE c.con_id =1 但它给了我重复的结果，当我知道只有con_id =1的行时，查询有什么问题！！

浏览 0提问于2011-02-19得票数 0

回答已采纳

1回答

MultipleBagFetchException -如果我们只有一个集合，该怎么办

java、hibernate、spring-data-jpa

有很多关于如何避免MultipleBagFetchExeption的信息，给出了一些答案，例如。MultipleBagFetchException - cannot simultaneously fetch multiple bags 我想知道，如果我们有一个包含一个嵌套集合B的实体A，并且该集合具有集合C，而集合C具有集合D，我们是否需要使用多个sql查询？我只能使用一个sql查询来获取带有嵌套集合的对象吗？我知道在A sql，C集合的情况下，我必须

浏览 26提问于2021-02-08得票数 0

回答已采纳

1回答

将apache星星之火与apache蜂窝远程连接。

apache-spark、jdbc、hive、apache-spark-sql

蜂窝jdbc连接器是唯一的选择吗？有什么建议我该怎么做？

浏览 3提问于2015-10-15得票数 3

回答已采纳

1回答

替代other_column中WHERE列的快速Spark

sql、pyspark、where-in

因此，我想不出使用原生PySparkian where(col(bar).isin(baz))的方法，因为在这种情况下，baz必须是一个列表。foo') == col('baz_'), 'right').drop('baz_') 然而，这是相当冗长的，在读了一段时间后很难解释，并且当在WHERE中处理大量条件时，会导致相当多的抓头，所以我想避免这种情况

浏览 2提问于2020-05-18得票数 2

1回答

Spark Structured Streaming -无需重新读取数据的多个聚合

apache-spark、spark-structured-streaming

我正在研究将Apache Spark用于一个应用程序。我对使用临时视图和完整SQL查询的结构化流模式特别感兴趣(为了简单和低延迟)。应用程序将需要在单个输入数据流上运行多个(数十个，可能数百个)查询。有没有办法避免Spark重复读取每个查询的输入？

浏览 27提问于2021-01-20得票数 0

回答已采纳

点击加载更多