腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
需要更少的拼花面板文件
、
、
、
、
我正在进行以下过程然而,在每个
分区
下,有太多的拼
图文
件,而且每个文件的大小都很小,这会使我下面的步骤加载所有的拼
图文
件变得非常慢。有没有更好的方法,在每个
分区
下,创建更少的拼
图文
件,并增加单个拼
图文
件的大小?
浏览 6
提问于2016-08-31
得票数 2
1
回答
如何将小拼
图文
件合并为一个大拼
图文
件?
、
、
、
我有一些
分区
的hive表,它们指向拼
图文
件。现在我为每个
分区
都有很多小的拼
图文
件,每个文件的大小都在5kb左右,我想把这些小文件合并成每个
分区
的一个大文件。我如何才能做到这一点,以提高我的蜂巢性能?我已经尝试将
分区
中的所有拼
图文
件读取到pyspark dataframe,并将组合后的dataframe重写到相同的
分区
,并删除旧的。但由于某些原因,这对我来说似乎是低效的或初学者级别的类型。
浏览 5
提问于2018-08-16
得票数 0
回答已采纳
2
回答
实例类型默认
分区
差异
、
、
、
我的理解是,spark会根据文件的大小,或者如果它是许多拼
图文
件的并集,部分的数量,来选择
分区
的“默认”数量。然而,在读入一组大的拼
图文
件时,我发现具有单个d2.2xlarge的EMR集群的默认
分区
数是~1200。然而,在2个r3.8xlarge的集群中,我得到了大约4700的默认
分区
。Spark使用什么指标来确定默认
分区
? EMR 5.5.0
浏览 1
提问于2017-08-08
得票数 0
2
回答
是有一个大的拼
图文
件好,还是有许多小的拼
图文
件更好?
、
、
据我所知,hdfs会将文件分成类似64mb的块。我们有流式传输的数据,我们可以将它们存储到大型文件或中型文件中。列式文件存储的最佳大小是多少?如果我可以将文件存储到最小列为64mb的位置,是否会比拥有1 1gb的文件节省任何计算时间?
浏览 1
提问于2017-03-21
得票数 25
回答已采纳
1
回答
如何在Dask中获取从拼
图文
件读取数据帧的单行值?
、
0 [1,2,3]dd.read_parquet(dataset_dir+'/train/date*/*.parquet')我需要为每一行调用map
浏览 48
提问于2019-06-05
得票数 0
1
回答
拼
图文
件:达到最小容量的最佳文件数量是多少
、
我用spark写了一个数据帧到一个拼
图文
件中,这个文件在HDFS上有100个子目录(每个子目录包含一个文件)。此文件大小为100 has。当我将数据帧重新
分区
到10个
分区
并将其写入HDFS时,输出拼接文件的大小增加到大约200 of。为什么会发生这种情况?写入拼
图文
件时,最佳
分区
数是多少?但我的主要问题是:当写入到拼
图文
件时,
分区
的最佳数量是多少?
浏览 16
提问于2019-06-17
得票数 0
2
回答
将拼图输出文件以固定大小保存在spark中
、
我有160 in的数据,
分区
在DATE列上,并以拼
图文
件格式存储在spark 1.6.0上。我需要在每个固定大小的
分区
中存储相同大小的输出拼
图文
件,例如每个
分区
大小为100MB。parquet.block.size",blockSize) 上面的配置不起作用,它正在使用默认
分区
数创建多个文件
浏览 4
提问于2018-04-14
得票数 5
2
回答
Spark是否在read上维护拼花地板
分区
?
、
、
、
假设我向parquet编写了一个数据帧,并结合使用repartition和partitionBy来获得一个
分区
良好的parquet文件。:现在,稍后我想要读取拼
图文
件,所以我这样做: val df = spark.read.parquet("/path/to
浏览 5
提问于2018-06-13
得票数 15
1
回答
雪花不扣除拼花中的按列
分区
、
推断模式函数在拼
图文
件上执行得非常好,并返回正确的数据类型。但是,当对拼
图文
件进行
分区
并将其存储在S3中时,推断模式的功能与pyspark数据帧不同。在DataFrames中,
分区
文件夹名和值被读取为最后一列;在Snowflake推断模式中,有没有办法实现同样的结果? @GregPavlik -输入为结构化拼图格式。当地块文件存储在没有
分区
的S3中时,模式是完全派生出来的。然而,如果拼
图文
件存储在
分区
中-如上图所示。我想知道在Snowflake中是否有
浏览 0
提问于2021-10-21
得票数 5
2
回答
如何注册腾讯云账号?
如何注册腾讯云账号。
浏览 7710
提问于2018-04-15
2
回答
如何使用Spark Streaming更新拼
图文
件?
、
、
但是当我用来自S3的新数据更新S3上现有的拼
图文
件时,它的性能就不好了。因为我必须从S3中获取现有的
分区
拼
图文
件,并用来自Kafka的新记录替换旧记录,然后在S3上覆盖完整的
分区
拼
图文
件。
浏览 18
提问于2019-11-03
得票数 0
1
回答
本地spark和拼
图文
件
、
我有单个交易的交易信息(例如,客户代码、产品、产品组、价格等)这在报告产品组等的聚合等时非常有效。我尝试按year_month & customer_code进行
分区
,但是有很多磁盘i/o,因为现在每个
分区
都是一个包含一行数据的客户代码。有没有一种方法可以提高性能,比如在一个
分区
中容纳10000个客户?或者,如果拼
图文
件大小为64Mb或类似大小,则
分区
到下一组。在Spark中的逻辑是,它在拼<
浏览 4
提问于2015-10-20
得票数 0
1
回答
如何使用Python pyarrow过滤Parquet文件中的记录
、
、
我在试着过滤拼
图文
件中的特定记录。我使用的是python pyarrow。我设法用熊猫做到了这一点(参见下面的代码)。问题是,对于一个大的拼
图文
件来说,它需要大量的内存。
浏览 3
提问于2018-07-30
得票数 2
1
回答
对拼
图文
件进行
分区
、
嗨,我正在运行猪作业来处理数据,并将结果保存为拼
图文
件。现在,我必须根据存在的任何列对该拼
图文
件进行
分区
。有什么方法可以做到这一点吗?
浏览 0
提问于2015-10-28
得票数 0
1
回答
Apache Spark dataframe在写入拼图时不会重新
分区
、
我正在尝试对我的DataFrame进行
分区
,并将其写入拼
图文
件。在我看来,重新
分区
对内存中的数据帧起作用,但不会影响拼接
分区
。更奇怪的是,coalesce是有效的。df.rdd.partitions.sizevar df_new = df.repartition(20)20[Stage 0:>
浏览 2
提问于2019-07-19
得票数 0
1
回答
带有Azure功能包的SSIS -使用快速压缩导出到拼图
、
、
我可以看到,我可以使用Azure功能包在本地ssis上创建/上传拼
图文
件到我的azure存储帐户。 但是,缺少拼
图文
件的设置,如
分区
或压缩设置。最后一个仅适用于文本文件。我有什么选择来把一个漂亮的压缩拼
图文
件放在我没有databricks的存储上,只是从我的本地ssis到存储帐户。
浏览 5
提问于2021-07-22
得票数 0
2
回答
Spark从每个拼
图文
件中获取一行
、
我有大量的数据(12 GB,压缩)在拼
图文
件中
分区
(大约2000个文件,每个
分区
有10个文件)。 我希望从每个拼
图文
件中获得一行,并并行执行,而不仅仅是在驱动程序上。
浏览 2
提问于2020-08-17
得票数 0
1
回答
Spark如何使用order加载有序拼接的
分区
文件?
、
、
在对所有条目进行排序并对S3使用write()函数后,我希望以完全相同的顺序和相同的
分区
重新加载数据。 我尝试使用read()和load()函数,但这些都不起作用。我们有没有办法加载具有相同顺序和
分区
的已
分区
拼
图文
件?
浏览 18
提问于2019-05-31
得票数 0
1
回答
当写入和重读到parquet文件时保留数据
分区
。
、
当我将带有定义
分区
的数据文件写入磁盘时,将其作为拼板文件,然后再次重新读取拼
图文
件,
分区
就会丢失。是否有一种方法可以在写入和重读过程中保留数据的原始
分区
?第二个数字在我看来也不错:我得到了100个*.parquet文件、100个*.parquet.crc文件和两个_SUCCESS文件,所以这个拼
图文
件仍然由100个
分区
组成。第三行显示,在再次读取拼花文件后,原始
分区
丢失,读取后的
分区
数量发生更改。
分区
数与我的星光星团的执行者数目有关。
浏览 0
提问于2018-06-28
得票数 8
回答已采纳
1
回答
如何在apache parquet java中编写一个
分区
的拼
图文
件
、
、
我想用Java编写一个使用Apache光束的
分区
拼
图文
件。数据是从Kafka读取的,我希望文件每小时有一个新的
分区
。时间戳列存在于数据中。
浏览 16
提问于2021-10-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
win7系统怎么分区图文教程
win7系统分区步骤图文教程
Win10超详细磁盘分区图文教程
dos命令compact图文教程,NTFS分区上文件的压缩,批处理脚本
dos命令subst图文教程,映射目录路径到电脑分区,bat批处理脚本
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券