我有一个Spark结构的流媒体应用程序。应用程序从kafka接收数据,并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是,我如何使用输入数据帧(kafka)中的数据,作为cassandra中的"where“参数"select”,而不会出现以下错误:
Exception in thread &qu
需要在结构化流中对UDF中的表执行一些查询。问题是,在UDF内部,如果我尝试使用spark.sql,就会得到空指针异常。这里最好的方法是什么。基本上,我需要从一个表中流,然后使用这些数据从另一个表执行一些范围查询。val query = "select count(*) from appleMart where appleId='"+appleId+"'"
val appleCount = s
我正在使用spark执行连接倍数表。其中一个表非常大,其他表很小(10-20个记录)。实际上,我想使用包含一对键值的其他表来替换最大表中的值。我的问题是;,这是加入表的最佳方式。(假设有100个或更多的小表) 1)收集小数据,把它转换成地图,广播地图,一步一步地转换大数据。spark.sql(" from bigtable
left join s