我正尝试在两个表上进行广播连接。较小的表的大小将根据参数的不同而不同,但较大的表的大小接近2TB。我注意到的是,如果我不将spark.sql.autoBroadcastJoinThreshold设置为10G,其中一些操作将执行SortMergeJoin而不是广播加入。我在较小的表上做了一些操作,因此混洗大小显示在Spark History Server上,内存中的大小似乎是150MB,远远不到10G。此外,如果我在较小的表上强制广播联接,则广播需要很长时间,这会使我认为
请注意,我在linkPersonItemLessThan500DF上使用的是linkPersonItemLessThan500DF,因为我打算稍后加入这两者。$apache$spark$repl$SparkILoop$$loop(SparkILoop.scala:670) at org.apache.spark.repl.SparkI