腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
不
使用
Spark
的
情况下
从
拼
图中
读取
特定
列
、
我正在尝试
在
不
使用
Apache
Spark
的
情况下
读取
拼图文件,我能够做到,但我发现很难
读取
特定
的
列
。我找不到谷歌
的
任何好资源,因为几乎所有的帖子都是关于
使用
阅读拼图文件
的
。下面是我
的
代码:val list = iter.toList list.foreach(record
浏览 6
提问于2017-03-06
得票数 1
1
回答
在
读取
spark
文件后未保留
列
顺序
、
、
、
、
我正在尝试
使用
spark
.read.json("<path>")
读取
一个json文件,但是默认
情况下
,
列
顺序是按sorted排序
的
。 有很多嵌套
列
/新
列
经常被添加到模式中,我无法为所有
列
定义模式。
在
不
手动定义模式
的
情况下
,我们可以在
读取
preserve column order时
使用
<e
浏览 6
提问于2021-04-28
得票数 0
1
回答
针对结构值
的
Spark
-Hive集成-空输出
、
、
使用
Spark
2.2 我已经
从
spark
程序中填充了一个拼图结构
列
,也填充了另一个拼图列结构数组 当它将其作为外部表
从
配置单元
读取
时;结构数组已正确填充,但结构(非数组类型)字段生成为NULL。注意:
在
拼
图中
,同时填充了struct和struct数组值。只有
在
蜂巢里我们才有问题,对此有什么想法吗?
浏览 7
提问于2020-01-18
得票数 0
1
回答
使用
通配符
读取
物理分区
的
数据
、
、
、
我
在
AWS S3上有一个持久化数据帧,结构如下: s3://bucket/df/ |__ FILENAME01.json |__ FILENAME02如果我
使用
以下语法
读取
此数据帧: df =
spark
.read.json("s3://bucket/df)" 没有扩展名
的
文件将是我
的
数据帧
的
一部分,这是不可取<e
浏览 50
提问于2021-02-20
得票数 1
回答已采纳
3
回答
验证火花放电数据帧
列
类型
的
可靠方法
、
、
、
如果我
从
CSV
读取
数据,默认
情况下
所有
列
都是"String“类型。通常,我
使用
以下函数检查数据,这些函数概述了数据及其类型df.show()df.distinct().count()但是,如果有一个我认为是
特定
类型
的
列
,例如Double,我不能确定如果我没有商业知识,是否所有的值都是双倍
的
,而且因为 我看不到所有的价值(数以
浏览 0
提问于2018-09-21
得票数 2
1
回答
通过另一
列
的
值初始化列表
我
在
Cassandra DB中有一个表,其中有一些
列
,例如: id (text), ..., data (text).出于迁移
的
目的,我需要将“数据”
的
值复制到一个新
列
:data_list (list<text>)。如何通过data_list
列
中
的
值初始化data
列
?这个是可能
的
吗?
浏览 2
提问于2021-06-13
得票数 1
回答已采纳
1
回答
模式
在
吡咯烷酮数据中
的
应用
、
、
我有一个csv文件有300
列
。在这300
列
中,我只需要3
列
。因此,我定义了相同
的
模式。但是,当我将模式映射到dataframe时,它只显示了3
列
,而显示了与前3
列
不一致
的
映射模式。它没有将csv列名与我
的
架构结构字段进行映射。StructField("Incident Number",IntegerType(),True), StructField("Entry DtTm",DateType() ,Tru
浏览 4
提问于2022-09-04
得票数 2
回答已采纳
1
回答
Pyspark:仅从嵌套
的
json数据中
读取
特定
字段
、
、
、
我正在尝试创建一个
spark
作业,它可以
读取
1000个json文件并执行一些操作,然后再次写入文件(s3)。 这需要很长时间,而且我一直
在
耗尽内存。我知道
spark
会在没有给出模式
的
情况下
尝试推断模式。最明显
的
做法是在读入时提供模式。但是,模式因文件而异,这取决于许多不重要
的
因素。在所有文件中大约有100个'core‘
列
,这些是我唯一想要
的
。是否可以
使用
pyspark编写一个只将我想要<e
浏览 35
提问于2020-08-21
得票数 0
1
回答
更改拼花文件
的
列
值,而
不
更改拼花文件
的
名称,使_
spark
_metadata不被更改
、
、
因此,我有一个火花结构化流作业,它将扁平
的
json消息数据存储
在
hdfs位置中
的
日期分区文件夹中,即/source/wireless/active_portal/activation/dt=current我必须在
不
更改名称
的
情况下
将所有拼板文件中
的
特定
列
值PIN更改为默认值XXXX,这样_
spark
_metadata就不会受到干扰。是否有一种方法可以通过
使用<
浏览 5
提问于2022-03-31
得票数 1
1
回答
在
不
更改列名
的
情况下
创建PySpark数据框
、
、
、
我
使用
下面的CTAS命令
使用
SparkSQL创建表。FROM TBL1 在那之后,我正在
使用
下面的PySpark代码
读取
新创建
的
位置(TBL2)下面的文件。但是,下面的data frame仅
使用
lowercase中
的
所有列名创建。而预期
的
结果是
在
camel case中,就像我在上面对CTAS所做
的
那样。df =
spark
.read.format('ORC') \
浏览 12
提问于2019-12-23
得票数 1
回答已采纳
2
回答
星火调度延迟
的
求取
我希望能够为每个任务生成一个度量表,比如当您访问
特定
阶段时,收集器
Spark
上
的
表。调度程序
的
延迟是如何计算
的<
浏览 5
提问于2016-06-23
得票数 2
回答已采纳
1
回答
如何为火花中
的
多个数据文件生成相同
的
UUID?
、
、
我有一个
从
文件中
读取
的
df然后我给它一个UUID
列
现在我创建了一个视图现在,我创建了两个接收视
图中
的
数据<e
浏览 1
提问于2021-05-14
得票数 1
回答已采纳
2
回答
谓词下推vs布隆过滤器
、
在
寻找大数据上
的
查询优化时,尤其是
在
ORC文件上,我遇到了两种可能
的
谓词下推和Bloom过滤器。谓词下推帮助我们避免
读取
不必要
的
条带,这有助于减少IO,但对我来说,Bloom Filter似乎也有相同
的
目的,除了以下几点。对于谓词下推,我们不需要在编写ORC文件时显式创建任何工件,而对于Bloom filters,我们需要在写入ORC文件时配置
列
。谢谢Santosh
浏览 0
提问于2019-02-11
得票数 2
3
回答
将文件保存到Parquet时,分区
列
被移动到行尾
、
对于给定
的
DataFrame,
在
成为saved到parquet之前,这里是一个模式:注意,centroid0是第一个
列
,是StringType。 path=/git/block/target/scala-2.11/test-classes/data/output/blocking/out//level1/clusters 下面是
从
保存
的
parquet
读
浏览 4
提问于2018-06-21
得票数 5
回答已采纳
2
回答
如何在
读取
spark
dataframe时
从
csv文件中删除
列
、
、
、
我正在尝试
从
csv文件创建
spark
数据帧,但是我不想在数据帧中包含原始数据中
的
特定
列
。
在
设置架构或
读取
csv文件时,是否可以这样做?
浏览 35
提问于2018-08-01
得票数 0
2
回答
如何解压拼图文件?
、
、
、
、
我有一个大小约为60MB
的
test.parquet文件。
使用
下面的脚本,我发现拼图文件
的
列
压缩是GZIP。用python如何解压这个GZIP压缩
的
拼图文件?
浏览 29
提问于2021-07-02
得票数 1
2
回答
直接查询文件与
读取
文件后查询数据帧
、
、
、
方法1:以下列方式直接查询拼花文件:和df =
spark
.read.parquet(path_to_parquet_file)和df.createOrReplaceTempView("sample") val sqlDF =
浏览 1
提问于2018-09-27
得票数 1
回答已采纳
1
回答
推送过滤器如何处理数据库中
的
Parquet文件?
、
、
pushedFilters
在
使用
拼花文件时是如何工作
的
? HighVolume_wofilter =
spark
.read.parquet("/FileStore/shared_uploadsPushedFilters: [In(originating_base_num, [B02617,B02
浏览 6
提问于2022-08-31
得票数 1
1
回答
在
_
spark
_metadata中什么也没有发现
、
、
我试图从一个
特定
的
文件夹中
读取
CSV文件,并将相同
的
内容写入到本地pc上不同位置
的
其他CSV文件中,以供学习。我可以
读取
文件并在控制台上显示内容。但是,如果我想将它写入指定输出目录下
的
另一个CSV文件,则会得到一个名为"_
spark
_metadata“
的
文件夹,其中
不
包含任何内容。location directory> ) userSchema = StructType().add("nam
浏览 3
提问于2018-06-09
得票数 0
回答已采纳
1
回答
如何按n行提取数据集内容n行?
我必须将Dataset
的
结果输出到Postgis (空间)数据库中。
Spark
不
处理它,我不得不编写不能序列化
的
特定
代码。这意味着我不能
使用
dataset.foreach(...)方法,我必须
从
外部
Spark
任务执行数据库插入。和一个只返回数据集
的
n行。 是否有一种按顺序
读取
数据集
的
方法,以便我可以
从
开始到结尾<
浏览 1
提问于2019-09-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL在字节跳动数据仓库领域的优化实践
一个Python大数据处理利器:PySpark入门指南
灵活强大:iObjects Java for Spark模块扩展开发
Apache Spark 2.4 内置的 Avro 数据源实战
Spark Streaming如何读Kafka数据 Hbase如何设计表
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券