我有一个场景,通过where条件从同一个DataFrame中使用另一个列从DataFrame读取一列,这个值作为IN条件通过,从另一个DataFrame中选择相同的值,我如何在sparkDataFrame中实现。在SQL中,它将类似于:
select distinct(A.date) from table A where A.key in (select B.key from table B where cond中有A表数据,在b_df Da
我有一个Properties变量,我通过调用REST服务来填充该变量。我需要将此列表传递给我的UDF。我认为广播变量可以很好地满足我的需求,因为Properties列表可能会很长。Java中将广播变量传递给UDF。编辑
我在网上得到的指示是,只有列类型和文字字符串类型才能传递到UDF中。是这样吗?是否可以不传入其他变量,如映射、数组等?记住,我说的是Spark with Java。的资源,但在<em
我正在做一个简单的项目,在apache spark中使用K-Means聚类,我做了一些预处理步骤,如标记化,停止单词删除,和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在sparkDataFrame中实现它。有人能教我怎么做吗?