在spark scala中编写withcolumn的泛型函数

在spark scala中编写withColumn的泛型函数，首先需要了解withColumn的作用和用法。

withColumn是DataFrame中的一个方法，用于添加或替换DataFrame中的某一列。它接受两个参数：列名和一个表达式，用于计算新列的值。在编写泛型函数时，我们需要考虑传入的表达式的类型。

以下是编写withColumn泛型函数的示例代码：

import org.apache.spark.sql.functions._

// 定义泛型函数
def withGenericColumn[T](df: DataFrame, colName: String, expr: Column): DataFrame = {
  df.withColumn(colName, expr.cast(T))
}

// 示例用法
val inputDF: DataFrame = ???
val outputDF = withGenericColumn[Int](inputDF, "newCol", col("oldCol"))

在这个示例中，我们定义了一个名为withGenericColumn的泛型函数。它接受一个DataFrame、一个列名和一个表达式作为参数，并返回一个新的DataFrame。函数中的泛型类型T用于指定新列的类型。

通过使用withColumn和cast函数，我们可以将表达式的类型转换为指定的泛型类型T，并将其作为新列添加到DataFrame中。

注意：在实际使用中，需要根据具体情况选择合适的类型T，并确保表达式的类型可以正确转换为T。

以上是对于在spark scala中编写withColumn的泛型函数的回答，如果想了解更多关于Spark和Scala的信息，可以访问腾讯云的文档和产品页面：

线程“主”java.lang.IllegalArgumentException中的异常:需求失败

、、

在这里，我试图将时间戳动态地添加到数据帧中， {“行动”：“事件”、"id":1173、"lat":0.0、"lon":0.0、"rollid":55、"event":"type“、"ccd":0、"fone":"ione”、"version":"10.1“、"item":"shack"} 在上面输入的数据中，im试图用下面的代码追加时间戳 foreachRDD(rdd=> 74

浏览 1提问于2017-01-17得票数 0

1回答

Scala: array.toList vs array.to[List]

、

我想知道在数组中.toList和.toList有什么不同。我在spark-shell中做了这个测试，结果没有区别，但我不知道使用哪个更好。有什么意见吗？ scala> val l = Array(1, 2, 3).toList l: List[Int] = List(1, 2, 3) scala> val l = Array(1, 2, 3).to[List] l: List[Int] = List(1, 2, 3)

浏览 14提问于2019-08-15得票数 3

回答已采纳

1回答

激发UDF将列值拆分为多列。

、、、

我有一个名为“description”值的dataframe列，格式如下 ABC XXXXXXXXXXXX STORE NAME ABC TYPE1 我想把它解析成3列，如下所示 | mode | type | store | description | |------------------------------------------------------------------------| | ABC | TYPE1 | STORE NAME | ABC XXXXXXXXXXXX STORE NAM

浏览 1提问于2018-10-06得票数 3

回答已采纳

1回答

创建一个新的列，方法是读取json字符串中的不一致模式。

、、、

我有一个pyspark dataframe，其中重要信息作为json字符串存储在列中，这些字符串具有类似但不一致的模式。我的问题提出了三个问题，如下所述：如果要用json字符串列平平数据格式，应该创建一个新的结构列并使用explodeDo 将单个单元格值传递给它们包装的函数？如何将每个条目的不同长度和字段的json数组加载到单个列中？这种情况既发生在databricks中，也发生在火花放电的本地安装中。此代码可以生成此表的MWA： from pyspark.sql.functions import from_json from pyspark.sql.types import * j

浏览 6提问于2022-02-03得票数 0

1回答

Py4JJavaError同时将PySpark数据写入Parquet文件

、、、、

总之，我有100 k行数据作为csv文件。这是它的样本： ID，姓名，姓氏，生日，详细信息 0，Agjqyru，Qtltzu，1923-02-23，{City=Neftchala，Gender=male，Education=collage} 1，Zkaczi，Gvuvwwle，2002-02-28，{City=Mingachevir，Gender=female，Education=doctor} 2，Hkbfros，Llmufk，1948-02-29，{City=Ujar，Gender=male，Education=collage} 3，Dddtulkeo，Fdnccbp，1903-07-0

浏览 4提问于2021-11-26得票数 1

回答已采纳

1回答

当我尝试动态转换列并分配排序顺序时，Scala +Spark+Dataframe异常

、、、、

我希望使用选定的列对数据进行排序，方法是将它们从giving类型转换为prederred类型和prederred order。，但是即使是简单的列转换也不起作用，从而导致了这种异常。我在这里提供了示例代码。 val conf = new SparkConf().setAppName("Sparkify").setMaster("local[*]") val sparkContext =new SparkContext(conf) val sqlContext = new SQLContext(sparkContext) var d

浏览 1提问于2016-04-14得票数 1

回答已采纳

1回答

无法合并Scala Spark中的两个DataFrames

、、

我一直在尝试将1个DataFrame附加到Scala中的另一个DF上。本例中的追加操作只是将一个相同大小的新列添加到现有列中-不涉及键匹配。两个DataFrames的形状相同(仅5行1列)。 scala> val coefficients = lrModel.coefficients.toArray.toSeq.toDF("coefficients") coefficients: org.apache.spark.sql.DataFrame = [coefficients: double] scala> coefficients.show() +---------

浏览 8提问于2017-08-05得票数 0

回答已采纳

2回答

向星火DataFrame添加随机值列时出错

、、

当我想在Spark2.2中重命名我的DataFrame列并使用show()打印它的内容时，我会得到以下错误： 18/01/04 12:05:37 WARN ScalaRowValueReader: Field 'cluster' is backed by an array but the associated Spark Schema does not reflect this; (use es.read.field.as.array.include/exclude) 18/01/04 12:05:37 WARN ScalaRowValueRead

浏览 3提问于2018-01-04得票数 0

回答已采纳

2回答

如何使用python或Scala将复杂的SQL查询转换为spark-dataframe

、、、、

我已经在spark中使用sqlcontext进行了一次转换，但我只想使用Spark Data frame来编写相同的查询。此查询包含join操作和SQL的case语句。sql查询编写如下： refereshLandingData=spark.sql( "select a.Sale_ID, a.Product_ID," "CASE " "WHEN (a.Quantity_Sold IS NULL) THEN b.Quantity_Sold "

浏览 0提问于2020-10-18得票数 0

1回答

将spark dataframe map列转换为json

、、、、

浏览 2提问于2018-04-12得票数 1

2回答

带纪元时间戳的spark读取csv

、、

我有一个包含以下模式和数据示例的CSV文件： userId,movieId,tag,timestamp 28,63062,angelina jolie,1263047558 我有下面的代码来读取这个文件。 import org.apache.spark.sql.types._ val inputPath = "FileStore/tables/o8pa07nd1495067426592/tags.csv" val customSchema = StructType(Array( StructField("userId", StringType, tr

浏览 21提问于2017-06-24得票数 0

1回答

pyspark pandas_udf函数出错，随后是官方示例

、

我关注了官方文档(pyspark version=2.4.4)： df = spark.createDataFrame([(1, "John Doe", 21)], ("id", "name", "age")) slen = pandas_udf(lambda s: s.str.len(), IntegerType()) df.select(slen("name")).show() @pandas_udf(StringType()) def to_upper(s): return s.str.upper(

浏览 0提问于2019-10-19得票数 0

1回答

ValueError:未能将字符串转换为浮点数/无效文本用于float()

、、、

我试图使用火花数据作为输入我的k-均值模型。不管怎么说，我总是犯错误。(检查代码后的部分) 我的看起来像这样(大约有100万行)： ID col1 col2 Latitude Longitude 13 ... ... 22.2 13.5 62 ... ... 21.4 13.8 24 ... ...

浏览 2提问于2017-07-06得票数 2

1回答

PySpark -使用df.select(*column_list)后错误"IndexOutOfBoundsException: No group 2“

、、

我找了又找，但我找不到答案。我有一个函数，它本质上将列(根据它们的名称和数据类型)排序为我的公司在将DataFrames保存到SQL之前所需的特定顺序。我知道这个功能起作用。它所做的就是输出一个列列表(在源DataFrame中找到)。我调用这个排序列名列表col_list，并使用它作为df.select()的参数。这种方法几个月来一直行之有效。但是，在一个特定的项目中，当我试图通过以下方法将排序应用于数据访问时： df = df.select(*col_list) ...I得到了以下错误： org.apache.spark.SparkException: Job aborted due t

浏览 11提问于2022-04-13得票数 0

2回答

Spark Scala - rdd distinct nullpointerexception异常

、

我正在使用spark完成一些小步骤，我的练习是将一个JSON文件加载到RDD中，选择一个列，然后使用distinct来获得惟一的值。我过滤的列包含多个值(CSV行)，必须拆分。 val sqlContext = spark.sqlContext import org.apache.spark.sql.hive.HiveContext val hiveCtx = new HiveContext(sc) import hiveCtx.implicits._ val bizDF = hiveCtx.jsonFile("/home/xpto/Documents/PersonalProjects

浏览 5提问于2020-12-02得票数 0

1回答

要检查的UDF是非零向量，不工作后CountVectorizer通过火花提交。

、、、

根据这个，我正在应用udf来过滤CountVectorizer之后的空向量。 val tokenizer = new RegexTokenizer().setPattern("\\|").setInputCol("dataString").setOutputCol("dataStringWords") val vectorizer = new CountVectorizer().setInputCol("dataStringWords").setOutputCol("features") val pipeline

浏览 3提问于2018-02-12得票数 1

1回答

在多个dataframe列上，是否有一个吡火花函数可以给我两个小数位呢？

、

我对编码很陌生，对、pyspark、和python也很陌生(新的意思是我是个学生，正在学习它)。我的代码不断出错，我不知道为什么。我要做的是让我的代码给我一个2小数点的输出，如下所示。下面是我希望输出的示例输出： +------+--------+------+------+ |col_ID| f.name |bal | avg. | +------+--------+------+------+ |1234 | Henry |350.45|400.32| |3456 | Sam |75.12 | 50.60| +------+--------+------+------+

浏览 2提问于2021-04-17得票数 0

2回答

将Array[string]类型的两列合并为新的Array[string]列

、、、

我在Spark DataFrame中有两列，每一列中的每个条目都是字符串数组。 val ngramDataFrame = Seq( (Seq("curious", "bought", "20"), Seq("iwa", "was", "asj")) ).toDF("filtered_words", "ngrams_array") 我希望合并每一行中的数组，以便在新列中生成单个数组。我的代码如下： def concat_array(firstarray: Arra

浏览 1提问于2018-03-07得票数 9

回答已采纳

4回答

无法在Spark (Scala)中的数据帧上执行用户定义函数

、、

我有一个数据帧df，如下所示 +--------+--------------------+--------+------+ | id| path|somestff| hash1| +--------+--------------------+--------+------+ | 1|/file/dirA/fileA.txt| 58| 65161| | 2|/file/dirB/fileB.txt| 52| 65913| | 3|/file/dirC/fileC.txt| 99|1310

浏览 30提问于2019-04-01得票数 2

回答已采纳

1回答

org.apache.spark.SparkException:由: java.io.NotSerializableException引起的不可序列化的任务

、

我有两个Scala代码-- MyMain.scala和MyFunction.scala，分别构建和构建的MyFunction jar将在MyMain中充当UDF。 MyFunction.scala基本上包含一个带有公共方法public String myFunc(String val0, String val1)的Java类。该项目是在SBT中构建的，build_jar编译输出作为工件存储(只存储所需的类，即MyFunction.class，而不是依赖项)。 MyMain.scala将上述工件jar导入lib文件夹下，并使用unmanagedBase := baseDirectory.valu

浏览 1提问于2019-10-27得票数 2

回答已采纳

1回答

在PySpark中使用Flashtext提取关键字

我正在尝试从PySpark数据文件中的一列菜单名称中提取关键字。下面是如何生成关键字处理器。keywords是一个关键字列表，如['sandwiches', 'burgers', ...]。 from flashtext import KeywordProcessor kp = KeywordProcessor() for keyword in keywords: kp.add_keyword(keyword) 我定义了一个从菜单名称中提取关键字的函数。 def extractKeywords(menu_name, kp=kp): keywo

浏览 3提问于2019-11-11得票数 1

回答已采纳

1回答

Spark Scala上的java.lang.NullPointerException问题

、

我有地理区域表和地点表，在位置表中我只有geoarea_id，而在地理区域表中我有id和名称我的目标是创建一个接受geoarea_id数组并在names数组中进行转换的函数声明这些表： val geoareas = ( spark.table("location.geoareas") ) val places = ( spark.table("location.places") .select('id, 'name, 'geoareas, 'lat, 'lng) ) 功能： import

浏览 55提问于2019-10-07得票数 0

1回答

spark:只拆分dataframe中的一列，并保持其余列不变

、、

我正在读取spark dataframe中的文件。在第一列中，我将获得两个用"_“连接的值。我需要将第一列拆分为两列，并保持其余列不变。我正在使用Scala和Spark 例如： col1 col2 col3 a_1 xyz abc b_1 lmn opq 我需要有新的DF作为： col1_1 col1_2 col2 col3 a 1 xyz abc b 1 lmn opq 只需将一列拆分为两列。我尝试使用df.select的拆分函数，但我需要为剩余的列编写select，并考虑具有100列

浏览 32提问于2019-05-01得票数 0

1回答

获取具有map数据类型列的两个spark数据帧之间的差异

、、

我有两个具有map数据类型列的dataframe。我尝试使用传统的except方法来获取两个数据帧之间的差异，但是我得到了下面的错误。 scala> val outputDF = Seq( | (1, "Visa", 0, Map("Visa" -> 1)), | (2, "MC", 2, Map("Visa" -> 1, "MC" -> 1)), | (3, "Amex", 0, Map("Amex" -> 1)),

浏览 1提问于2020-10-28得票数 0

2回答

将稀疏特征向量分解为单独的列

、、、、

在我的spark DataFrame中，有一列包含了CountVectoriser转换的输出-它是稀疏向量格式的。我想要做的是将这列再次“分解”成一个密集的向量，然后是它的组成部分行(这样它就可以用于外部模型的评分)。我知道本专栏中有40个特性，因此在下面的示例中，我尝试了： import org.apache.spark.sql.functions.udf import org.apache.spark.mllib.linalg.Vector // convert sparse vector to a dense vector, and then to array<double&g

浏览 12提问于2018-01-30得票数 2

回答已采纳

1回答

toString数据Pyspark数据帧

、、

我正在尝试对一个列执行一些正则表达式操作。为了做到这一点，我用如下的基本小写操作进行了说明： df.select('name').map(lambda x: x.lower()) 这里的df是一个DataFrame，当我调用collect()操作时，该操作抛出了一个异常。 Ques 1: After map(or reduce) operation, every DataFrame converts to a Pipelined RDD. Am I right? 如果是这样，为什么这个命令在收集流水线RDD时抛出异常。我错过了什么吗？异常太大，无法读取： 17/07

浏览 11提问于2017-07-07得票数 0

回答已采纳

2回答

大型数据集的火花崩溃

、、

我正在学习火花放电，但遇到了这个错误。我已经坚持了几个小时了。我在StackOverflow上看到了许多问题，但大多数问题要么增加了驱动程序内存，要么增加了执行器内存。我也尝试过，但似乎没有发挥作用。如果这里的任何人都经历过这样的错误，我们将非常感谢您的帮助。如果我有一个较小的数据集，同样的代码也能工作，但是当我使用一个大数据集时，这个错误再次出现。我的笔记本电脑配置： Windows 10 home Pyspark 2.4+ Java 8 python 3.5 and pypy RAM: 16GB spark-defaults.conf spark.master

浏览 1提问于2020-10-13得票数 0

回答已采纳

2回答

具有自动分区发现功能的Spark读取多路径

、、

我正在尝试从多个路径读取一些avro文件到DataFrame。假设我的路径是这个路径下的"s3a://bucket_name/path/to/file/year=18/month=11/day=01"，我还有两个分区，假设是country=XX/region=XX 我想一次读取多个日期，而不需要明确命名国家和地区分区。此外，我希望国家和地区是这个DataFrame中的列。 sqlContext.read.format("com.databricks.spark.avro").load("s3a://bucket_name/path/to/file/yea

浏览 2提问于2018-12-03得票数 2

3回答

如何使用在星火联接中创建的列？-歧义错误

、

在scala中，我已经与此进行了一段时间的斗争，我似乎无法找到一个明确的解决方案。我有两个数据： val Companies = Seq( (8, "Yahoo"), (-5, "Google"), (12, "Microsoft"), (-10, "Uber") ).toDF("movement", "Company") val LookUpTable = Seq( ("B", "Buy"), ("S", "Sell

浏览 1提问于2019-11-11得票数 0

回答已采纳

1回答

从avro文件中获取火花dataframe列中每一行的数据

、、

我正在尝试处理我的dataframe中的一个列，并从每个条目对应的avro文件中检索一个度量。基本上，我想做以下几点：读取路径列的每一行，这是作为数据读取到avro文件中的avro文件的路径&获取精度度量，它以Struct的形式创建一个名为的新列，该列具有精度度量。这也可以看作是应用spark.read.format("com.databricks.spark.avro").load(avro_path)，但适用于Path列中的每一行。这是我的输入数据： +----------+-----+--------------------------+ |timestam

浏览 4提问于2022-07-01得票数 0

1回答

重新格式化scala代码和if/ else语句

、、

我已经编写了Scala代码与spark dataframe相结合。起初，它是有效的(只有当我不使用if else语句时)。虽然它不是一个干净的代码，但我想知道如何转换它？其次，if/ else语句不起作用，我如何像python中那样将值附加到上面的变量中，并在以后将其用作dataframe？对不起，我是Scala的新手。 %scala for(n <- Scalaconfigs){ var bulkCopyMetadata = new BulkCopyMetadata val sourceTable = n(0) val tar

浏览 3提问于2018-08-24得票数 0

回答已采纳

1回答

无法使用sparkDataframe:org.apache.spark.sql.AnalysisException:获取Json列，无法解析'explode；

、、、

有人能在这个场景中帮助我吗?我正在使用spark/scala读取一个Json文件，然后尝试访问列名，但在访问列名时，我得到了下面的错误消息。 org.apache.spark.sql.AnalysisException: cannot resolve 'explode(`b2b_bill_products_prod_details`.`amt`)' due to data type mismatch: input to function explode should be array or map type, not DoubleTy

浏览 58提问于2020-07-11得票数 0

回答已采纳

3回答

在pyspark中读取嵌套的JSON文件

、

我想要从hdfs中的json文件中创建一个。 json文件有以下内容： {“产品”：{ "0"：“桌面计算机”、"1"：“平板电脑”、"2"："iPhone“、"3"：”膝上型计算机“}、”价格“：{ "0"：700、"1"：250、"2"：800、"3"：1200 } 然后，我使用pyspark 2.4.4 df = spark.read.json("/path/file.json")读取了这个文件所以，我得到了这样的结果： df.

浏览 1提问于2019-09-05得票数 8

回答已采纳

1回答

Scala火花UDF函数，它接受输入并将其放入数组中

、、、

我正在尝试为Spark创建一个Scala，它可以在Spark中使用。该函数的目标是接受任何列类型作为输入，并将其放入ArrayType中，除非输入已经是ArrayType。下面是我到目前为止掌握的代码： package com.latitudefinancial.spark.udf import org.apache.spark.sql.api.java.UDF1 import org.apache.spark.sql.types._ import org.apache.spark.sql.SparkSession class GetDatatype extends UDF1[Obj

浏览 8提问于2022-05-06得票数 0

1回答

Spark Structured streaming -使用模式从文件读取时间戳

、

我正在做一个结构化的流媒体工作。我从文件中读取的数据包含时间戳(以毫秒为单位)、deviceId和该设备报告的值。多个设备报告数据。我正在尝试编写一个作业，将所有设备发送的值聚合(和)到1分钟的滚动窗口中。我遇到的问题是时间戳。当我试图将"timestamp“解析为Long时，窗口函数抱怨它需要"timestamp type”。当我试图像下面的代码片段那样解析成TimestampType时，我得到了.MatchError异常(完整的异常可以在下面看到)，我正在努力找出原因以及正确的处理方法 // Create schema StructType readSchema

浏览 16提问于2021-04-19得票数 0

回答已采纳

1回答

星星之火数据格式列名未被识别

、

，df有以下列名： scala> df.columns res6: Array[String] = Array(Age, Job, Marital, Education, Default, Balance, Housing, Loan, Contact, Day, Month, Duration, Campaign, pdays, previous, poutcome, Approved) 通过列名对df的sql查询工作得很好： scala> spark.sql(""" select Age from df limit 2 ""

浏览 0提问于2018-05-14得票数 1

回答已采纳

1回答

MapType在Spark3.x: Encoders.bean中导致一个map<String对象的AnalysisException，someClass>失败，这在Spark2.4中工作得很好

、

试图将Java代码从2.4迁移到3.x，我有一个数据集--一个包含MapType的数据集。 /** * Renvoyer le schéma du Dataset. * @return Schema. */ public StructType schemaEntreprise() { StructType schema = new StructType() .add("siren", StringType, false) .add("statutDiffusionUniteLegale", StringType, true)

浏览 2提问于2020-10-13得票数 7

回答已采纳

1回答

将简单值从映射映射到spark DataFrame错误

、、

我最近开始在Scala中使用Spark，我发现自己处于这样一种情况:我想要将一些值从hashmap/map映射到dataframe，而不必构造新的dataframe，然后执行某种连接。我有这个数据框架： +---+-------+---+----------+---------+ | id| name|age| date|genderKey| +---+-------+---+----------+---------+ | 1|Rodrigo| 30|2019-01-01| male| | 2|Roberto| 23|2019-01-01| male| |

浏览 2提问于2020-04-10得票数 0

1回答

向现有DataFrame添加mapType列

、、

关于Spark中的Scala中的DataFrames，我有一个简单而快速的问题。我有一个现有的Spark DataFrame (在Scala2.10.5和Spark 1.6.3上运行)，我想用ArrayType或MapType添加一个新列，但不知道如何实现。但不知道该怎么处理。我不想用“单一”值创建多个列，而是将它们存储在一个列中。这将缩短我的代码，并使其更容易更改。 import org.apache.spark.sql.types.MapType ... // DataFrame initial creation val df = ... // adding new columns

浏览 9提问于2019-11-20得票数 0

1回答

scala程序搜索最近的值

、、

我想基于下面的hive创建一个df： WITH FILTERED_table1 AS (select * , row_number() over (partition by key_timestamp order by datime DESC) rn FROM table1) scala function: import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession val table1 = Wi

浏览 0提问于2018-08-28得票数 0

回答已采纳

1回答

火花的快速数字散列函数(PySpark)

、、、

我正在尝试将哈希函数应用于PySpark DataFrame (在EMR集群上运行)的列中的短字符串，并获得一个数字值作为新列。例如，CRC3会做这项工作。我知道this question，但它是Scala的，我需要一个python版本。 (顺便说一句，我知道pyspark.sql.functions中的sha1和sha2，但我需要一个更快的散列函数，它只返回一个数字，比如校验和(但冲突尽可能少)。) 我做了以下工作： import zlib crc32 = udf(zlib.crc32) df2= df.withColumn("crc32", crc32(col("

浏览 15提问于2019-10-16得票数 3

1回答

(PySpark)创建一个新的数组列，其中包含列表列和静态列表的二进制比较结果

、、

场景我有一个包含以下数据的数据： import pandas as pd from pyspark.sql.types import ArrayType, StringType, IntegerType, FloatType, StructType, StructField import pyspark.sql.functions as F a = [1,2,3] b = [['a', 'b', 'c'], ['d', 'e', 'f'], ['g', 'h',

浏览 9提问于2022-10-09得票数 1

回答已采纳

1回答

如果方案为空或嵌套为空，则无法将数据框写入宗地文件

、、、、

我对scala和spark都很陌生。我有一个非常愚蠢的问题。我有一个从elasticsearch创建的数据框架。我正试图用拼图格式编写那个s3。下面是我看到的代码块和错误。一个好心的撒玛利亚人能在这个问题上给我指点一下吗？ val dfSchema = dataFrame.schema.json // log.info(dfSchema) dataFrame .withColumn("lastFound", functions.date_add(dataFrame.col("last_found"), -457

浏览 14提问于2019-08-25得票数 1

回答已采纳

1回答

浇铸列时的星火SQL - java.lang.UnsupportedOperationException: empty.init

、、、

在试图对列执行强制转换(从带有头的逗号分隔的csv文件中读取)时，我会得到以下错误。下面是我使用的代码： var df = spark.read.option("header","true").option("delimiter",",").csv("/user/sample/data") df.withColumn("columnCast", expr("CAST(SaleAmount) AS LONG")).count 这将导致每次引发下列异常。我试过不同的栏目，当铸造和一些抛

浏览 1提问于2019-11-26得票数 1

回答已采纳

1回答

Apache-Sedona with Pyspark - java.lang.ClassCastException：[B不能强制转换为org.apache.spark.unsafe.types.UTF8String

、、、

我正在从spark中的拼图加载数据，其中一列是Binary Type。我想要将此列转换为几何类型，为此我使用Apache Sedona/GeoSpark。我使用st_geomfromwkb来完成此操作，但遇到错误 df = spark.read.parquet("dbfs:/FileStore/tables/geometry.parquet") df.printSchema() root |-- geo_key: string (nullable = true) |-- STATEFP: string (nullable = true) |-- geometr

浏览 107提问于2021-09-19得票数 2

1回答

添加新列DataFrame Spark

我尝试通过在dataframe中添加一个新列来使用SparkSQL。我的守则是： val df= sc.read.json("C:/Users/A661758/Desktop/TEST-XSLT.json") df.withColumn("UID", new org.apache.spark.sql.Column("UID")) 错误：'**UID**‘给定的输入列无法解析：我使用Spark2.1.0和Scala2.11.8 谢谢。

浏览 1提问于2017-03-14得票数 1

2回答

无法在文件中转换拼花列，预期: bigint，查找: INT32

、、、、

我有一个带有tlc列的胶水表，它的数据类型是Bigint。我试图使用PySpark执行以下操作：读取Glue表并将其写入dataframe 与另一个表，将结果数据写入S3 path 我的代码看起来是： df = spark.sql('select tlc from monthly_table') df.createOrReplaceTempView('sdc') df_a = spark.sql('select tlc from monthly_table_2') df_a.createOrReplaceTempView('abc&#

浏览 4提问于2020-03-24得票数 10

1回答

从Databricks笔记本向Azure Eventhubs发送火花数据帧时出错(java.lang.NoSuchMethodError)

、、、、

我需要从我的Databricks笔记本上发送一个到一个Eventhub。这个问题发生在代码的这一部分： ehWriteConf = { 'eventhubs.connectionString' : EVENT_HUB_CONNECTION_STRING } def send_to_eventhub(df:DataFrame): ds = df.select(struct(*[c for c in df.columns]).alias("body"))\ .select("body")\ .write.form

浏览 10提问于2022-10-05得票数 0

2回答

星火无法计算表达式:窗口表达式的滞后

、、、

我试图对cassandra表中的数据文件执行大量操作，然后将其保存在另一个表中。其中一项行动如下： val leadWindow = Window.partitionBy(col("id")).orderBy(col("timestamp").asc).rowsBetween(Window.currentRow, 2) df.withColumn("lead1", lag(sum(col("temp1")).over(leadWindow), 2, 0)) 当我运行我的工作时，我会得到一个异常，说明不能计算lag操作。 2018-

浏览 0提问于2018-10-01得票数 5

回答已采纳

1回答

PySpark: TypeError:不支持的操作数类型为+：'datetime.datetime‘和'str’

、、、

我有DataFrame在PySpark中，它有以下模式： root |-- id: string (nullable = true) |-- date: timestamp (nullable = true) |-- time: string (nullable = true) |-- start: timestamp (nullable = true) |-- end: timestamp (nullable = true) 我想再添加一个类型为date_time的列timestamp import datetime to_datetime_func = udf (lambda

浏览 0提问于2019-07-22得票数 1