腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6726)
视频
沙龙
1
回答
Spark
/
Parquet
分区
是否
保持
有序
?
、
、
如果我对一个数据集进行
分区
,当我读回它时,它的顺序
是否
正确?customer_id) % 4, IntegerType())df2 = sql_context.
浏览 34
提问于2019-03-08
得票数 2
回答已采纳
2
回答
Spark
是否
在read上维护拼花地板
分区
?
、
、
、
假设我向
parquet
编写了一个数据帧,并结合使用repartition和partitionBy来获得一个
分区
良好的
parquet
文件。如下所示:现在,稍后我想要读取拼图文件,所以我这样做: val df =
spark</e
浏览 5
提问于2018-06-13
得票数 15
2
回答
加载拼板文件并
保持
相同数量的hdfs
分区
、
、
、
、
中,并
保持
相同数量的
分区
。但是,
Spark
将自动将文件加载到60个
分区
中。df =
spark
.read.
parquet
('df')60 没有设置'
parquet
.block.size'。 sc._jsc.hadoopConfiguration().setInt("
parquet
.block.size", 64*2**20
浏览 0
提问于2019-06-14
得票数 0
1
回答
不具有
分区
列性能的火花下推滤波器
我有一个关于
spark
中的过滤的问题,当你不在过滤器中包括
分区
列时。假设我有以下按日期
分区
的数据: part-0001.
parquet
数据有一个名为"action“的列,其中大约30%的数据值为0,其余的数据值为1
spark
.read.
parquet
("s3a://path&q
浏览 2
提问于2020-08-02
得票数 0
2
回答
如何在
Spark
中使用
分区
发现
、
其中包含了拼花文件: ├── name=Steve在SparkSQL中,使用以下查询:+---+----+但是,另一种方法是在创建表时指定架构,然后使用恢复
分区
执行alternative。CREATE TABLE test2(ID Int, name String) USING
parquet
OPTIONS (path 'hdfs://
浏览 0
提问于2018-08-23
得票数 1
回答已采纳
2
回答
在HDFS上进行
spark
存储和读取镶嵌
、
、
我正在写这段代码
spark
.conf.set("
spark
.sql.shuffle.partitions",6)outputData.write.
parquet
(outputFile) //write on HDFS 如果我想从HDFS中读取文件"outp
浏览 1
提问于2016-11-04
得票数 3
1
回答
PySpark。在读取拼图时通过强制转换为字符串合并架构?
、
、
我从拼图文件中读取数据,其中有一个Map type字段,如下所示:>>> df.collect() |-- key: string问题是在其他
分区
中,密钥a为None,导致密钥b被读取为long类型: &g
浏览 11
提问于2019-10-23
得票数 1
1
回答
为什么星火不在读取时根据
Parquet
块大小创建
分区
?(相反,它似乎按照
Parquet
文件的压缩大小进行
分区
)
、
、
、
在下面的场景中,我使用
Spark
读取了一个
Parquet
文件:文件中的块数(行组):3blockSize: 195 MB, rowCount: 13956611538519, compressedSize: 38819 bytes当我尝试使用
Spark
读取这个单一的
Parquet
文件时,它只创建一个
分区
。当我尝试使用
Spark
浏览 3
提问于2020-05-17
得票数 2
1
回答
如何在工作/任务节点上仅使用一个线程读取拼图文件?
、
、
、
如果我们执行以下命令:
spark
.sql("select * from
parquet
.`/Users/MyUser/TEST/testcompression/part-00009-asdfasdf-e829-421d-b14f-asdfasdf.c000.snappy.
parquet
`"
浏览 9
提问于2022-11-14
得票数 0
回答已采纳
3
回答
阻止DataFrame.partitionBy()从架构中删除已
分区
的列
、
我按如下方式对DataFrame进行
分区
:代码给出了预期的结果(即按类型和类别划分的数据
浏览 3
提问于2016-03-23
得票数 20
回答已采纳
1
回答
为什么火花不自动检测我的
Parquet
文件中的新字段?
、
、
、
、
在Databricks博客下面的摘录中,我们声称,作为
Spark
1.3,如果随着时间的推移,新字段将被添加到一个拼板模式中,它们将被自动检测和处理(我假设在将该字段插入到
parquet
文件之前的时间内插入该字段的这个特性不适用于我--例如,如果我使用这个命令读取所有月份的数据:然后尝试查询一个新添加
浏览 0
提问于2018-08-20
得票数 1
回答已采纳
1
回答
Azure数据湖的火花谓词下推、过滤和
分区
剪枝
、
、
、
、
为了了解读取的数据量,我一直在阅读关于火花谓词、下推和
分区
剪枝的文章。1)如果我发出一个read
spark
.read(容器).filter(Year=2019,SchoolName="XYZ"): 将执行
分区
修剪,并且只读取有限数量的
分区
?
是否
会在blob存储上存在I/O,数据将被加载到
Spark
集群中,然后进行过滤,也就是说,我
是否
必须为我们不需要的所有其他数据的IO支付天价?2)如果我发出一个读
spark
.read(
浏览 1
提问于2019-09-27
得票数 3
回答已采纳
1
回答
Parquet
和
Spark
中的
分区
策略
、
我有一个工作,读取csv文件,将其转换为数据帧,并在
Parquet
中写入。我正在使用附加模式,同时写入数据在
Parquet
。使用这种方法,在每次编写中都会生成一个单独的
Parquet
文件。我的问题是: ( 2)
是否
有一种完全基于数据大小来生成
Parquet
分区
的方法?( 3)我们
浏览 1
提问于2018-09-12
得票数 3
1
回答
正在读取包含.mani/清单文件的存储桶目录
、
、
我有一个目录,如下所示,需要在不读取.mani (清单文件)的情况下,将年份作为一列读取
spark
.read.
parquet
('car_data')。我遇到的问题是,如果我加载目录,就像你对存储桶的数据一样,我会得到一个错误,因为
Spark
试图将mani文件读取为
parquet
,但之后我无法使用通配符跳过它们!有没有其他方法可以做到这一点?编辑:我现在也尝试过
spark
.read.load('/car_data/', format='<
浏览 5
提问于2021-05-18
得票数 0
1
回答
在
Parquet
分区
目录结构中读取不同的Schema
、
、
我在hdfs上使用
spark
编写了以下
分区
拼接数据: |---Month |----Day|---dailydata.
parquet
现在,当我从year path读取df时,
spark
读取dailydata.
parquet
。如何从所有
分区
中读取每月数据。我尝试使用设置选项mergeSchema = true,但出现错误。
浏览 4
提问于2017-03-30
得票数 0
1
回答
星星之火: DataFrameWriter必须是阻塞的步骤吗?
、
、
、
或者通过dropDuplicates,依靠事实,我的数据是
有序
的。(我宁愿使用前者,但我一直在尝试各种方法。)因此,的问题是:
是否
有一种方法可以迫使火花处理这些组,并在它们准备好之后立即编写它们?同样,它们是
分区
的,因此没有其他任务会影响我的
分区
。outputs/window')d1 =
spark
.read.
parquet
('outputs/first').repart
浏览 0
提问于2018-03-26
得票数 0
2
回答
星火知道DataFrame的
分区
键吗?
、
、
我想知道星火
是否
知道分割键的地板文件,并使用这些信息,以避免洗牌。运行
Spark
2.0.1运行本地SparkSession。") .save("SomeFile.
parquet
") 我正在按列numerocarte创建42个
分区
。特别是,我在上面运行一个window function,其中
分区
是在
parquet
文件被重新
分区
的同一列上完成的。
浏览 0
提问于2018-01-26
得票数 21
回答已采纳
1
回答
在Foundry中,如何在每个值只有一个拼图文件的情况下实现Hive
分区
?
、
、
、
、
为此,我们的想法是通过将
分区
列设置为dataset中的一个列(称为splittable_column)来执行单元
分区
设置。如果我的数据集的基数为3,我的目标是将数据布局如下:
spark
例如,我的数据集看起来如下:
spark
/splittable_column=Value A/part-00000-abc.c0
浏览 9
提问于2022-06-29
得票数 1
回答已采纳
1
回答
PySpark -在读取拼花后优化
分区
数
、
、
、
df =
spark
.read.
parquet
( "A.
parquet
/_YEAR={2018}/_MONTH={1,2,3}", "B.
parquet
/_
浏览 1
提问于2018-06-05
得票数 2
回答已采纳
1
回答
吡火花-
分区
数据(用“追加”模式创建)的计算速度慢
、
、
例如,要计算给定日期集的每天行数:
spark
.read.
parquet
("path/to/data_2021071[0-5].
parquet
")\.count()\
分区
数据(几分钟).filter( (col("DayTi
浏览 2
提问于2021-07-30
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL,DataFrames 以及 Datasets 编程指南
Hive底层数据存储格式详解
浅淡 Apache Kylin 与 ClickHouse 的对比
Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
关于Impala优化的几点思考
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券