组合两个spark udf问题

、、

我在scala中使用Spark 1.6；我必须计算持续时间，即结束时间和开始时间之间的差值。

浏览 7提问于2017-06-23得票数 0

回答已采纳

1回答

PySpark使用UDF创建组合

、、、

这可能是一个基本的问题，但我已经被困了一段时间了。但在运行线路上我得到以下错误 File "<stdin>", line 1, in <

浏览 0提问于2018-04-13得票数 2

1回答

当输出是要从Pyspark使用的复杂类型(使用StructType和StructField)时，如何传递Scala UserDefinedFunction

、、、、

我想要的是接受一个字符串列表作为x，一个字符串列表作为y，并获得所有的字符串组合因此，如果我有x= "a"，"B“和y="A"，"b”，我期望输出= [a，A，a，B，b，A，b，B] 我编写的Scala它适用于Scala Spark。我的问题是试图让这个在pyspark中可调用。import org.apache.spark.sql.functions.udf import org.apache.spark.sql.api

浏览 29提问于2020-10-09得票数 4

回答已采纳

1回答

基于类方法创建PySpark数据框列-带参数

、、、、

我做了以下工作：df = avtk_gold.withColumn('firstname_email_match', F.udf(lambda j: NationalRetailFeatures(json.loads

浏览 11提问于2020-11-12得票数 0

回答已采纳

1回答

我可以从apache spark UDF返回一个Tuple2 (在java中)吗？

、、、

我需要一个UDF2，它接受两个参数作为输入，对应于两个类型为String和mllib.linalg.Vector的Dataframe列，并返回一个Tuple2。这可行吗？如果是，我如何注册这个udf()？hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);UDF2<String, org.apac

浏览 11提问于2017-01-10得票数 1

回答已采纳

1回答

火花DataFrame: withColumn的订单有保证吗？

、、、

我之所以问这个问题，是因为在同一段代码的多次运行中，结果不一致，我开始认为这可能是问题的根源。

浏览 5提问于2017-08-23得票数 1

回答已采纳

1回答

Spark将Array[string]与标记结合起来

、

我在Array[string]集合中有两个MongoDB列，现在通过Scala UDF函数组合它，如下所示： { }spark.sql(("

浏览 0提问于2018-10-03得票数 1

回答已采纳

1回答

udf来自SparkSession和udf来自pyspark.sql.functions有什么区别？

、、、

我有两种方法来使用udf：spark = pyspark.sql.SparkSession.builder.getOrCreate()output:print(udf)<function pyspark.sql

浏览 4提问于2021-12-20得票数 0

回答已采纳

1回答

运行时评估功能不能很好地使用Spark数据集/RDD

、、

$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of org.apache.spark.rdd.MapPartitionsRDD:114) at org.apache.spark.scheduler.Task.run(Task.scala:109) at

浏览 0提问于2019-01-18得票数 1

1回答

Mlflow log_model，无法用spark_udf进行预测，但使用python工作。

、、、、

我想在mlflow上记录一个模型，一旦我这样做了，我就可以用python加载的模型来预测概率，但不能用spark_udf来预测。问题是，我仍然需要在模型中有一个预处理功能。, encodes the variables INSIDE; this WORKS现在使用spark_udf进行推断并得到一个错误：X_spark</e

浏览 4提问于2021-12-09得票数 0

1回答

在给定行的Spark DataFrame中并行运行UDF

withColumn("resultA",expensiveUDF($"inputA")).show()我试图增加spark.task.cpus，但这并没有解决问题。我知道有一种方法可以在UDF

浏览 2提问于2018-11-05得票数 0

1回答

把熊猫变成火花公子

因此，我正在尝试将python算法转换为Spark友好代码，并且遇到了以下问题：df1 = spark.read.load(*.csv) func_udf = udf(index.indexer) ????df = df.withColumn('column1',func_udf

浏览 0提问于2018-07-25得票数 0

回答已采纳

2回答

PySpark抛出ImportError，但模块实际上存在并运行良好

、、、、

我正在使用Cloudera，而Spark版本是2.1.0。 from fuzzywuzzy import fuzz return res Master = table

浏览 0提问于2017-07-11得票数 3

回答已采纳

1回答

Spark管道中的UDF

、、

我在python中创建了一个UDF，用于计算表中两个日期列之间的日期数组，并将其注册到spark会话中。我在管道中使用这个UDF来计算一个新列。现在，当我将这个流水线保存到HDFS，并希望它被读回以便在不同的程序中执行(使用不同的spark会话)时，UDF是不可用的，因为它没有在任何地方全局注册。由于该进程是通用的，并且需要运行多个管道，因此我不想添加UDF定义并将其注册到spark会话中。有没有办法让我在所有spark会话中全局注

浏览 1提问于2018-02-12得票数 0

1回答

用火花将字段添加到Csv中

、、、

问题的更新：public class Hash {public staticJavaSparkContext Spark_Context; public("spark.master", &qu

浏览 0提问于2018-08-02得票数 0

回答已采纳

1回答

带有PySpark 2.4的Pandas UDF

、、、

我正在尝试基于下面的spark文档使用PySpark 2.4，pyarrow版本0.15.0和pandas版本0.24.2执行pandas_udf，在调用pandas_udf函数时有问题。# Declare the function and create the UDF return a * b x = pd.Series([1, 2, 3]) #

浏览 1提问于2020-11-06得票数 0

1回答

火花UDF统计量

、、、

计算UDF的正呼叫结果的最佳方法是什么？我有一个UDF(java)，它转换列中每个字段的值，并在满足四个条件时将其分配给新列。如果不是，则值为空。由于这个DF很大，不可能记录每个调用，所以我考虑创建一个计数器或缓存作为UDF的一部分，在任务完成日志记录结果或将结果写入DB之后--该作业每隔几个小时在多个工作人员上运行一次，所以它不会很昂贵。

浏览 5提问于2022-08-18得票数 1

1回答

UDF注册错误:不支持org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]类型的架构

、、、

当注册低于错误的UDF函数时，其他UDF函数正在工作，但只有这个UDF提供问题。错误: org.apache.spark.sql.Datasetorg.apache.spark.sql.Row类型的架构不支持spark.udf.register("udfname",udf_name _) def udf_name(paramte

浏览 2提问于2017-03-28得票数 0

1回答

火花作业无需执行udf即可完成。

、

我有一个问题，一个长期的，复杂的火花工作，其中包含一个udf。我以前从未经历过这样的行为，任何可能导致这种行为的线索都将不胜感激。(x=>_1*x._2) .zipAll(result5, 0.0, 0.0) .foldLeft(0.0)(

浏览 0提问于2018-11-19得票数 0

3回答

如何在groupBy之后聚合映射列？

、、

我需要联合两个数据帧，并通过键组合列。这两个datafrmae具有相同的模式，例如：|-- id: String (nullable = true)| |-value) })org.apache.spark.sql.AnalysisException: No han

浏览 0提问于2017-05-29得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark使用UDF创建组合

当输出是要从Pyspark使用的复杂类型(使用StructType和StructField)时，如何传递Scala UserDefinedFunction

基于类方法创建PySpark数据框列-带参数

我可以从apache spark UDF返回一个Tuple2 (在java中)吗？

火花DataFrame: withColumn的订单有保证吗？

Spark将Array[string]与标记结合起来

udf来自SparkSession和udf来自pyspark.sql.functions有什么区别？

运行时评估功能不能很好地使用Spark数据集/RDD

Mlflow log_model，无法用spark_udf进行预测，但使用python工作。

在给定行的Spark DataFrame中并行运行UDF

把熊猫变成火花公子

PySpark抛出ImportError，但模块实际上存在并运行良好

Spark管道中的UDF

用火花将字段添加到Csv中

带有PySpark 2.4的Pandas UDF

火花UDF统计量

UDF注册错误:不支持org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]类型的架构

火花作业无需执行udf即可完成。

如何在groupBy之后聚合映射列？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐