Java Spark withColumn -自定义函数

、、、

问题，请用Java(不是scala或python)提供任何解决方案我有一个包含以下数据的DataFrame colA, colB24,64 我想要的是这样的数据帧 colA, colB, colC24,64, result of myFunction(23,24) 基本上，我想在java中的数据框中添加一列，其中新列的值是通过将colA和colB的值放入一个返回字符串的复杂函数来找到的。myDataFrame.withColumn(&q

浏览 51提问于2020-10-14得票数 0

2回答

在星火Dataset<Row>中使用custome UDF withColumn；不能将java.lang.String转换为org.apache.spark.sql.Row

、、、、

我在java中使用spark的Dataset读取该文件。 .builder() .getOrCreate(); Dataset<Row> df = spa

浏览 2提问于2017-08-25得票数 4

回答已采纳

1回答

将小时、分钟和秒添加到星火数据

、

是否有Spark函数将小时、分钟和秒添加到现有的时间戳列中。

浏览 0提问于2018-07-02得票数 3

4回答

如何获得开始日期和结束日期之间的月数

、

5/2/2016 5/1/2017 11请让我知道我的代码有什么问题，val result = data.withColumn("res", withColumn(

浏览 0提问于2018-01-22得票数 2

回答已采纳

2回答

Spark列字符串出现在其他列(行)中时替换

、、

我想从col1中删除col2中存在的字符串("Hi I heard about Spark", "Spark"),("Logistic regression models are neat", "models") )).

浏览 10提问于2017-08-10得票数 13

回答已采纳

1回答

为什么在使用返回类型为Option[Long]的对象的UDF时会出现类型不匹配错误？

、、、

我正在尝试用Scala编写一个处理空值的用户定义函数(UDF)。对于我的示例，如果值不为null，我将尝试返回列的纪元。我发现Option[]用于从自定义函数返回空值。我不知道如何让它处理我的udf返回的Option[Long]： spark.read .json(location) .withColumn("dateEpoch", toEpoch(col("EventTS

浏览 15提问于2020-09-07得票数 1

1回答

Spark 3.0.1是否支持窗口函数上的自定义聚合器？

、、

我编写了一个自定义Aggregator (org.apache.spark.sql.expressions.Aggregator的扩展)，并在group by语句下将其作为聚合函数正确调用： sparkSession.agg( .show(); 我想在窗口函数中使用它我试过这样调用它： sparkSession .createDataFrame(

浏览 27提问于2020-12-01得票数 0

回答已采纳

2回答

Spark scala如何将dataframe中的整型列转换为十六进制大写字符串？

、

我们可以使用下面的函数来转换单个整数值。 val x=100 Integer.toString(x, 16).toUpperCase 但是如何将其应用于整数列以生成具有十六进制字符串的新列呢？testDF = testDF.withColumn("data_hex_string", Integer.toString(testDF("data"), 16).toUpperCase)

浏览 63提问于2020-09-04得票数 0

回答已采纳

1回答

将列中的行转换为星火中的LocalDate

、、

当我试图过滤data其中的data < todayData时，我遇到了一个问题val todayData = LocalDate.now.format( 其中之一是： +--------+--------+--

浏览 0提问于2021-09-22得票数 0

回答已采纳

1回答

在spark* Data frame中如何使用scala将string类型的Date列转换为Date类型的Date列*

、、、、

我已经在spark中尝试过这种方式我想我已经拥有了所有需要的库。

浏览 3提问于2020-04-22得票数 0

2回答

带有函数的pySpark withColumn

、、、

我有一个dataframe，它有两列: account _ id和电子邮件 _ address，现在我想再添加一列'updated _ 电子邮件 _ 地址‘，我在电子邮件中调用了一些函数 _ 获取更新的地址email, -8, 8) + str(today.strftime('%m')) + str(today.strftime('%d')) + "_updated" df.withColumn|djasevneuagsj1 |cde@test.com

浏览 38提问于2019-12-13得票数 1

回答已采纳

2回答

Spark SQL中rank()函数的用法

、、、、

Dataset<Row> inputCol= inputDataset.apply("Colname"); Dataset<Row> DSColAwithIndex=inputDSAAcolonly.withColumn

浏览 1提问于2017-03-06得票数 6

回答已采纳

1回答

激发UDF将列值拆分为多列。

、、、

它适用于简单的UDF函数，但不适用于我编写的函数。挑战在于，存储的价值可以是两个以上的词，也可以是没有固定数量的单词。.getItem("_1")) .withColumn("type", col("test:未能执行用户定义的函数($anonfun$myFunc1$1$1：(字符串)

浏览 1提问于2018-10-06得票数 3

回答已采纳

1回答

在java中，使用withColumn在映射中查找字段值将列添加到数据帧中

在Java中，我想向dataframe中添加一列，并使用列中的值在映射中查找该值，如下所示 .withColumn( "lookup" , lit( sizes.value( ).floorEntry( col( "integer" ) ).getValue( ) ) ) 但这会导致一个异常 Caused by: java.lang.ClassCastException: org.apache.spark.sql.Columncannot be cast to java</e

浏览 40提问于2019-09-18得票数 0

2回答

Spark :移除映射列的关键字

、、、

userInfo的dataset ds：现在，我希望在我的新数据集中也有这个地图列(例如dsNew = ds.withColumn

浏览 4提问于2021-03-09得票数 0

4回答

Java & Spark :在dataset中添加唯一的增量id

、

通过使用Spark和Java，我尝试将n列的DatasetRow添加到Integer标识列中。我怎样才能在Java/Spark中做到这一点？

浏览 3提问于2017-08-03得票数 6

回答已采纳

1回答

电火花卡夫卡readStream

、、、

,org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.3 pyspark-shell' df = spark.readStream.format("kafka_jreader.load())File "C:\spark\spark-3.1.3-bin-hadoop2.7\python\lib\py4j-0.10.9-src.zip\py4j\java_gateway.py(GatewayConnection.<em

浏览 7提问于2022-03-30得票数 0

2回答

string for Python -不能将字符串列强制转换为十进制/双进制

、、

我尝试了几个版本，在所有的版本中，我都有一个DataFramedataFrame.printSchema"/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py", line 1502, in withCol

浏览 1提问于2017-10-25得票数 3

回答已采纳

1回答

方法pow不存在错误火花误差

、、

当我创建一个dataframe，然后用函数pow进行一些转换时，它就能工作了。但当我推动它在现实世界中运行时，它就没有了。在我的虚拟场景中，列的数据类型和实际场景是相同的。("CounterpartID"))\ .withColumn("month", f.col("Month而是有一个真实的dataframe (当然)，其中的所有列都具有与上面我的虚拟da

浏览 7提问于2022-08-11得票数 0

回答已采纳

2回答

Pyspark :无法保存为“蜂巢表”

、、

('cust_id', df['key']['cust_id']).withColumn('platform', lit('platform')).withColumn('context', lit('context')).withColumn('module', lit('context')).withColumn('impressi

浏览 0提问于2017-01-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在星火Dataset<Row>中使用custome UDF withColumn；不能将java.lang.String转换为org.apache.spark.sql.Row

将小时、分钟和秒添加到星火数据

如何获得开始日期和结束日期之间的月数

Spark列字符串出现在其他列(行)中时替换

为什么在使用返回类型为Option[Long]的对象的UDF时会出现类型不匹配错误？

Spark 3.0.1是否支持窗口函数上的自定义聚合器？

Spark scala如何将dataframe中的整型列转换为十六进制大写字符串？

将列中的行转换为星火中的LocalDate

在spark* Data frame中如何使用scala将string类型的Date列转换为Date类型的Date列*

带有函数的pySpark withColumn

Spark SQL中rank()函数的用法

激发UDF将列值拆分为多列。

在java中，使用withColumn在映射中查找字段值将列添加到数据帧中

Spark :移除映射列的关键字

Java & Spark :在dataset中添加唯一的增量id

电火花卡夫卡readStream

string for Python -不能将字符串列强制转换为十进制/双进制

方法pow不存在错误火花误差

Pyspark :无法保存为“蜂巢表”

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐