腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
:
如何
定义
嵌套
模式
?
、
、
我是Apache
Spark
的新手,所以如果这是一个新手问题,请原谅。为了加快处理速度,我正在尝试在读取数据集之前
定义
一个特定的架构。有一些数据类型我不确定
如何
定义
(ArrayType和StructType)。 下面是我正在使用的
模式
的屏幕截图: ? StructField("value", DoubleType(), True) ]) 我的问题是:
如何
说明属性列下的名称和
浏览 17
提问于2021-05-04
得票数 0
回答已采纳
1
回答
创建具有
嵌套
结构的DataFrame并从输入表填充数据
、
、
我正在使用Scala中的
Spark
,希望将现有的数据集(dataframe)转换为包含
嵌套
结构的新表。columnB columnC columnD columnE 示例输出: columnA columnB columnC columnF:{columnD,columnE} (创建一个同时包含D和E作为
嵌套
结构的新列) 转换columnA-C很简单,因为我可以使用.withColumn(),但是我不确定
如何
指定新的
嵌套
列结构并从同一个表中填充数据。我认为
定义
嵌套
<em
浏览 25
提问于2021-08-12
得票数 0
1
回答
如何
解析混合
嵌套
和非
嵌套
结构的json?
、
、
、
、
在文件1中,JSON元素"image“是
嵌套
的。正确地推断出了结果
模式
:df1.printSchema |-- id:(nullable = true) |-- type: string (nullable = true) some文件包含一些
嵌套
元素和
浏览 0
提问于2017-10-29
得票数 1
回答已采纳
1
回答
是否点燃支持
嵌套
架构?
、
当使用
spark
时,Dataframe可以有
嵌套
的
模式
,并且可以以parquet格式保存。它是由火药支撑的吗?
浏览 1
提问于2018-06-06
得票数 0
回答已采纳
1
回答
使用预
定义
的
模式
更新
Spark
推断的DataFrame
模式
、
对于传入的数据集,我有一个预
定义
的架构(基本架构)。但在某些情况下,dataset可能具有略微不同的架构,其中包含一些附加列或
嵌套
列字段。在处理数据时,我希望使用组合
模式
(基本
模式
+推断
模式
),以便考虑所有列/字段。我现在遵循下面的方法。我想知道是否有更好/更快的方法来实现这一点。predefinedSchema = (StructType) DataType.fromJson(predefinedSchemaJsonString); Dataset<Row> dfWith
浏览 14
提问于2021-09-07
得票数 1
2
回答
如何
在星火数据集中存储
嵌套
自
定义
对象?
、
、
、
火花版本: 3.0.1import
spark
.implicits._root但是,如果自
定义
类型是
嵌套
在product类型(即case class)中,则会提供一个错误: java.lang.UnsupportedOpe
浏览 3
提问于2020-10-03
得票数 0
回答已采纳
1
回答
在
Spark
结构的流中读取
嵌套
Json
、
、
我使用样例json创建
模式
,稍后在代码中使用from_json函数将json转换为数据帧以进行进一步处理。我面临的问题是
嵌套
模式
和多值。示例
模式
将标记(比如a)
定义
为结构。val df0=
spark
.read.format("json").load("contactSchema0.json")val df1 =
spark
.readStream.format: "co
浏览 6
提问于2019-06-11
得票数 0
1
回答
在读取
spark
文件后未保留列顺序
、
、
、
、
我正在尝试使用
spark
.read.json("<path>")读取一个json文件,但是默认情况下,列顺序是按sorted排序的。 有很多
嵌套
列/新列经常被添加到
模式
中,我无法为所有列
定义
模式
。在不手动
定义
模式
的情况下,我们可以在读取preserve column order时使用
spark
.read.json吗?""{"zip":"a","
浏览 6
提问于2021-04-28
得票数 0
1
回答
将
Spark
模式
转换为Redshift频谱
嵌套
模式
、
、
、
在EMR集群上使用Apache
Spark
,我读入了xml数据,推断出了
模式
,并将其以parquet格式存储在s3上。从本质上讲,它现在是一个
嵌套
表。因为我正在处理多个“外部表”,所以手动干扰
模式
是不可行的。我还没有找到任何现有的工具来完成从星火
模式
格式
浏览 16
提问于2019-08-02
得票数 0
回答已采纳
1
回答
使用
spark
流解析Event Hub复杂数组类型消息
、
、
、
、
我们
嵌套
了json消息,但无法解析相同的消息: {"Name":"Rohit","Salary":"29292","EmpID":12,"Projects":{"ProjectID":"9191","ProjectName":"abc","Duration":"79"},{"ProjectID":"9192&q
浏览 19
提问于2021-04-06
得票数 1
回答已采纳
3
回答
如何
遍历星火中的
模式
?
、
我想在
Spark
中迭代一个
模式
。使用df.schema提供了
嵌套
StructType和StructFields的列表。当我尝试访问
嵌套
的IN: temp.getClass IN: temp
浏览 1
提问于2018-07-17
得票数 7
回答已采纳
2
回答
Spark
DataFrame:
如何
在作为Avro编写时指定
模式
、
、
我想使用提供的Avro
模式
编写Avro格式的DataFrame,而不是
Spark
的自动生成
模式
。我
如何
告诉
Spark
在写入时使用我的自
定义
模式
?
浏览 7
提问于2018-02-21
得票数 2
回答已采纳
2
回答
使用
Spark
时DataFrame列的自
定义
数据类型
、
我知道我可以使用自
定义
方言在db和
spark
之间进行正确的映射,但是当我使用
spark
的jdbc.write选项时,
如何
创建具有特定字段数据类型和长度的自
定义
表
模式
?当我从
spark
加载一个表时,我想要对我的表
模式
进行粒度控制。
浏览 1
提问于2017-12-04
得票数 4
回答已采纳
1
回答
不同对象JSON阵列的火花选择
、
在Databricks/
Spark
/Python (SparkVersion2.4.0中,使用pyspark),我从MongoDB获得一个包含可以
嵌套
的不同对象数组的字段的集合。我想把它转换成某种我可以选择的
模式
/结构。 "field5" : "55",
浏览 0
提问于2019-01-24
得票数 1
2
回答
是否可以在创建DataFrame时指定列名
Romania 15United States Ireland 344如果我读了它,
Spark
scala> val data =
spark
.read.csv("./data/flight-data/csv/2015-summary.csv") data: org.apache.
spark
.sql.DataFrame = [_c0: string, _c1: st
浏览 0
提问于2019-02-03
得票数 0
2
回答
通过转换到dataset来更新
spark
模式
、
、
、
背景:我想从
模式
中移除一些深
嵌套
的字段。我尝试了以下方法,但是
模式
没有改变:reduced_ds.limit(1).collect() // Array(myCaseClass(bar!))
浏览 7
提问于2022-10-21
得票数 0
回答已采纳
1
回答
使用Java从拼图文件中读取
嵌套
JSON
、
、
、
我在Java中使用
Spark
1.5.2,并且我试图读入一个包含来自JSON文件的数据的parquet文件。我很难弄清楚应该
如何
读取一个最初包含
嵌套
JSON的字段,但现在它是一个WrappedArray<WrappedArray<String>>。我已经浏览了
Spark
页面以读取拼图文件,但似乎没有一个示例与我正在寻找的相匹配。我做了一些搜索,找到了与scala相似但特定于scala的东西。true),true)) 我猜我需要为该字段创建一个
模式
,但是我不知道
如何
浏览 1
提问于2016-01-30
得票数 3
1
回答
我正在加载列,这是一个varchar存储JSON字符串从mysql表到
Spark
dataframe。我希望能够在上面使用
Spark
Sql
、
下面是我的代码 val query = """ """ df.createOrReplaceTempView("tbl") 在mysql表tbl中的字段b_data是varchar类型的,并且具有如下所示的JSON (只是一个示例),它可以被
嵌套
,我希望能够使用这个JSON,而不必使用固定的
模
浏览 110
提问于2020-04-29
得票数 0
1
回答
星火支持列是否扫描结构数组的剪枝?
、
在以下
模式
中,我有一个名为“住户”的数据框架: |-- country_code: string (nullable = true)where exists(individuals, id -> exists(id.ids, dev -> dev.year_released > 2018))val v =
spark
.sql该计划显示,
Spark
必须读取
嵌套
结构的所
浏览 20
提问于2020-07-20
得票数 3
3
回答
使用动态
模式
的
Spark
from_json
、
、
我正在尝试使用
Spark
来处理具有可变结构(
嵌套
JSON)的JSON数据。输入的JSON数据可能非常大,每行超过1000个键,一批可能超过20 GB。整个批次是从30个数据源生成的,每个JSON的“key2”都可以用来标识源,并且每个源的结构都是预
定义
的。 处理这些数据的最佳方法是什么?我尝试过使用如下所示的from_json,但它只适用于固定
模式
,要使用它,首先需要根据每个源对数据进行分组,然后应用该
模式
。由于数据量很大,我的首选选择是只扫描数据一次,然后根据预
定义
的
模式</e
浏览 1
提问于2018-03-04
得票数 14
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
MBA如何定义商业模式
Spark计算引擎:Spark数据处理模式详解
【C语言编程锦囊·连载58】类型定义是否允许嵌套?
自定义开发Spark ML机器学习类
Spark 如何 post 数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券