Spark Scala dataframe列到嵌套的json

文章/答案/技术大牛

发布

1回答

、、

我正在尝试将dataframe转换为嵌套的json。基本上，最终的输出是在字段"id“级别，其他字段的嵌套json格式。 Json格式，使用字段rank作为键，desc和percent作为值。感谢您的帮助！---------------------------------------------------------------------------------------------+ |id |<

浏览 19提问于2020-09-12得票数 1

回答已采纳

1回答

使用spark流解析Event Hub复杂数组类型消息

、、、、

我们嵌套了json消息，但无法解析相同的消息： {"Name"："Rohit"，"Salary"："29292"，"EmpID"：12，"Projects"：{"ProjectID"："9191"，"ProjectName

浏览 19提问于2021-04-06得票数 1

回答已采纳

1回答

在Scala中嵌套JSON到dataframe

、

我使用Spark/Scala来发出API请求，并将响应解析为dataframe。下面是用于测试目的的示例JSON响应：但是，我尝试使用下面的来转换为JSON，但是嵌套的字段没有被处理。是否有任何方法将JSON字符串转换为带有列的dataframe？

浏览 16提问于2022-08-22得票数 0

4回答

在Spark流SQL中解析嵌套JSON字符串列

、、、

我遵循星火流指南，并能够使用sqlContext.read.json(rdd)获取json数据的sql上下文。问题是，json字段之一是我希望解析的JSON字符串本身。是否有一种方法可以在spark中完成这一任务，或者使用ObjectMapper解析字符串并将其连接到其他数据中会更容易吗？为了澄清，JSON的一个值是一个字符串，其中包含带有转义内部引号的JSON数据。我正在寻找一种方法来告诉解析器将

浏览 12提问于2016-01-04得票数 4

回答已采纳

2回答

使用行字段(即字符串数组)筛选

、

使用Spark1.5和Scala2.10.6 .where(df("tags").contains("private")) 由于数据类型不匹配导致线程“主”org.apache.spark.sql.AnalysisException:无法解析‘Contains(标记，私有)’中的异常:参数1

浏览 3提问于2016-01-17得票数 19

回答已采纳

1回答

Spark :分解一对嵌套列

、、

Spark 2.1版{ "field2": "value2", "name": "b" { "id": "3",

浏览 11提问于2017-02-22得票数 1

回答已采纳

4回答

如何读取Spark中的嵌套集合

、、、、

如何将该表读入RDD，更重要的是如何过滤、映射等Spark中的嵌套集合？ps。我觉得在谈判桌上提供一些统计数据可能会有所帮助。主表中的列数约为600。行数~200m。嵌套集合中的“列”数~10。嵌套集合中的平均记录数~35。

浏览 191提问于2015-05-03得票数 19

回答已采纳

1回答

如何用新列转义星火dataFrame中的字符串字段

、

如何通过DataFrame编写具有JSON格式的新列。我尝试了几种方法，但它将数据写入JSON-转义字符串字段。目前它的写作形式是{"test":{"id":1,"name":"name","problem_field": "{\"x\":100,\"y\":200}"}} 相反，我希望它成为{"test":{"<em

浏览 0提问于2019-06-14得票数 1

1回答

Spark HiveContext获取与配置单元客户端选择相同的格式

、

当配置单元表有像映射或数组这样的值时，如果你在配置单元客户端选择它，它们会显示为JSON，例如：{"a":1,"b":1}或[1,2,2]。在Spark中选择这些对象时，它们是DataFrame中的贴图/数组对象。当我使用Spark的HiveContext时，我想使用与Hive客户端相同的格式。我该怎么做呢？

浏览 1提问于2018-07-20得票数 0

2回答

Scala火花:为json找到的多个源

、、

在我的hadoop集群上执行spark2-submit时，当在hdfs中读取.jsons目录时，我不知道如何解决它。我尝试过显式导入org.apache.spark.sql.execution.datasources.json.JsonFileFormat，但导入SparkSession似乎是多余的，因此没有得到认可不过，我可以确认这两个类都是可用的。val json:org.apache.spark.sql.execution.datasources

浏览 0提问于2020-07-05得票数 0

回答已采纳

1回答

对json和dataframe错误触发非json

、、

我有一个json类型的文件(不是真正的json结构)，但是我转换为json并通过spark (我们在Spark1.6.0中)读取，我还不能使用spark 2中的多行功能。它显示结果，但同时出错。我有这样的文件。(rdd).show() 它显示的结果，但我得到以下错误也，请帮助这一点。:98) at org.apache.spark.sql.DataFrame.w

浏览 2提问于2018-08-31得票数 1

2回答

Scala -如何将包含一个字符串列的数据type转换为具有严格类型列的DF？

、、

我目前正面临一个我无法解决的问题。我用的是星火1.6。 {"eventid":"3bc1c5d2-c10f-48d6我没能把它转换成正确的类型。希望的架构在df

浏览 3提问于2016-11-08得票数 4

回答已采纳

1回答

在Spark中展平行

、、、

我正在使用scala为spark做一些测试。我们通常读取需要操作的json文件，如下例所示：{"a":1,"b":[2,3]}如何将其转换为以下格式

浏览 1提问于2015-10-02得票数 49

回答已采纳

1回答

如何使用StopWordsRemover来转换json对象的数据？

、、

我正在使用MLlib和Spark1.5.1。输入类型必须是ArrayType( StringType )，但获得StringType。我的密码怎么了？df = sqlContext.read().json("file:///home/ec2-user/spark_apps/article.json"); articl

浏览 2提问于2015-11-07得票数 1

回答已采纳

3回答

带有备选方案的重载方法foreachBatch

、

错误：(34，25)重载方法foreachBatch与备选方案：(函数:不能应用于(org.apache.spark.sql.DataFrame，( scala.Long) => org.apache.spark.sql.DataFrame) askDF.writeStream.foreachBatch (askDF: DataFrame，batchId: Long) => package fr.fdj import org.apache.

浏览 5提问于2020-07-28得票数 6

3回答

如何从结构元素的嵌套数组创建SparkSpark元素？

、、、

我已经将一个JSON文件读入Spark。该文件的结构如下：root | |-- next: struct我理想情况下需要一个包含"cde“、"cdeInternal”、“DataFrame”列的消息……如下所示|-- cde: struct (nullable = true)...scal

浏览 2提问于2015-11-23得票数 10

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。$1.apply(DataFrame.scala:152)

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我看到有一个dataFrame.withColumnRenamed方法，但我只能重命名一列。我有涉及多个列的连接。我是否只需要确保存在一组惟一的列名，而不管我应用na().fill()方法的dataFrame中的表别名是什么？给定： <e

浏览 4提问于2016-02-28得票数 3

3回答

如何使用spark scala解析Hive/Hbase列中可用的嵌套JSON

、、

如何使用spark scala解析和扁平化Hive/Hbase列中的嵌套JSON？示例： "fruit": "Apple", "LineNumber": 2,

浏览 1提问于2019-04-17得票数 0

点击加载更多