我正在尝试在每批spark streaming作业中查找数据帧的大小。我能够成功地在批处理作业中找到大小,但当涉及到流时,我无法做到这一点。我一直在数据库上开发spark应用程序,并尝试在流式作业中使用'df.queryExecution.optimizedPlan.stats.sizeInBytes‘。val data = spark.readStream
我们一直在使用Spark (Spark2.0)来处理在Cassandra.Note中建模的数据,这些数据是在Cassandra中建模的,以实现高效的读写。不过,现在也有Spark,即Spark,它也是另一种数据访问方法-- DataFrame 。使用Spark,我们使用CQL使用Datastax驱动程序API访问Cassandra ,类似于
val resultSets = new util.Arr