首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#parquet

【python】pyarrow.parquet+pandas:读取及使用parquet文件

Qomolangma

pyarrow.parquet模块,可以读取和写入Parquet文件,以及进行一系列与Parquet格式相关的操作。例如,可以使用该模块读取Parquet文件...

34910

Parquet存储的数据模型以及文件格式

火之高兴

Aapche Parquet是一种能有效存储嵌套数据的列式存储格式,在Spark中应用较多。

17710

Hive中parquet压缩格式分区表的跨集群迁移记录

火之高兴

从华为A集群中将我们的数据迁移到华为B集群,其中数据经过华为集群管理机local跳转。

8310

Parquet与ORC:高性能列式存储 | 青训营笔记

鳄鱼儿

数据格式层:定义了存储层文件内部的组织格式,计算引擎通过格式层的支持来读写文件;从分层视角下的数据形态来看

42310

NOIP2022模拟赛二 By JTZ 10.18

yzxoi

暴力枚举左端点 i,再二分一个右端点满足 k|\gcd(i,r),再在该区间二分满足 \gcd(i,r)==k。

18910

列式存储引擎-内核机制-Parquet格式

yzsDBA

Parquet继承了Protocol Buffer的数据模型。每个记录由一个或多个字段组成。每个字段可以是atomic字段或者group字段。Group字段包含...

62130

​PySpark 读写 Parquet 文件到 DataFrame

数据STUDIO

现在通过调用DataFrameWriter类的parquet()函数从PySpark DataFrame创建一个parquet文件。当将DataFrame写入p...

1K40

Spark sql 是如何优化执行的

小石头

Spark SQL 端到端的完整优化流程主要包括两个阶段:Catalyst 优化器和 Tungsten。其中,Catalyst 优化器又包含逻辑优化和物理优化两...

42610

降低数据大小的四大绝招。

炼丹笔记

在非常多的问题中,例如商品推荐数据存储(大量的用户和商品,还有购买金额等信息),金融数据存储(大量的标的,价格等),我们不可避免的都会碰到数据过大的问题,如果对...

1.3K10

更新操作的秘密

用户2936994

让我选最核心的特性的话,我会选择第二个。在大数据领域,我们也是一步步进化的,从最早的数据存储采用纯文本,到后面ORC/Parquet等面向读的格式。但是他们都存...

40320

geopandas&geoplot近期重要更新

Python大数据分析

最近一段时间(本文写作于2020-07-10)geopandas与geoplot两个常用的GIS类Python库都进行了一系列较为重大的内容更新,新增了一些特性...

79930

Delta Lake如何自己实现更新操作加速(布隆过滤器)

用户2936994

Delta Lake 现阶段判定一条数据是不是已经存在是比较暴力的,直接做一次全表join(如果有分区会好点)。这样可以得到待更新记录所在的文件路径。在特定...

72330

一段有用的代码 | Flink读写parquet文件

大数据真好玩

Flink读parquet import org.apache.flink.core.fs.Path import org.apache.flink.forma...

2.6K20

揭秘ApacheHudi数据湖的文件管理

ApacheHudi

Hudi将记录写入数据 parquet文件或日志 log文件,而这些文件在内存中是如何进行管理呢?如之前的文章中提到过的 HoodieFileGroup、 Fi...

1.1K30

(数据科学学习手札89)geopandas&geoplot近期重要更新

Feffery

  最近一段时间(本文写作于2020-07-10)geopandas与geoplot两个常用的GIS类Python库都进行了一系列较为重大的内容更新,新增了一些...

88120
领券