parquet - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签parquet

#parquet

宽表元数据膨胀怎么解？Doris Segment V3 对比 Parquet、Lance

SelectDB技术团队 15天前2026-07-14 13:56:11

假设一张用户行为表有 3000 列，而查询只需要 user_id 和 event_time，理论上，其余 2998 列都不应产生明显开销。

12710

既生瑜何生亮 | 有了 pg_duckdb/pg_mooncake 为什么还要 pg_parquet

用户4035096 20天前2026-07-09 18:56:55

但是问题来了, DuckDB提供了更强的parquet读、写、本地+远程parquet表的混合计算能力, 在PG中直接使用pg_duckdb/pg_moonca...

15510

Parquet格式火了！量化分析师用DuckDB和Polars读取，TB级数据秒处理

不吃草的牛德 2026-04-232026-04-23 13:09:44

Parquet格式火了！量化分析师用DuckDB和Polars读取，TB级数据秒处理，CSV时代彻底拜拜！

1.3K10

数据仓库选型必看：主流产品对CSV、TXT、ORC、Parquet等多格式支持全解析

gavin1024 2026-03-302026-03-30 17:20:00

在数据驱动的时代，企业数据往往以多样化的格式存在——从传统的CSV、TXT文本文件，到高效的列式存储格式ORC、Parquet，再到半结构化的JSON等。选择一...

29310

Apache Parquet Avro反序列化漏洞POC：CVE-2025-30065

qife122 2026-02-032026-02-03 13:37:05

26910

Apache Parquet 优势与日志应用场景解析

东风微鸣 2025-12-252025-12-25 13:30:39

近期看了几篇关于日志解决方案的文章, 发现它们都在使用 Apache Parquet 作为存储文件格式. 如下:

60810

Hive性能提升利器：深度解析文件存储格式选择，ORC与Parquet为何成为首选？

用户6320865 2025-11-292025-11-29 09:08:52

在大数据技术快速演进的今天，Hive作为构建在Hadoop之上的数据仓库工具，在企业级数据处理中依然占据着核心地位。根据IDC最新报告，2025年全球数据总量预...

93310

排序对parquet 文件大小的影响

shengjk1 2025-05-162025-05-16 11:10:26

公司 hive数仓全面迁移到 iceberg后，发现存储空间比 hive 要大，并且文件格式都是 parquet

50000

Parquet 文件是如何编写的——行组、页面、所需内存和刷新操作

shengjk1 2025-05-162025-05-16 11:08:59

一个Parquet文件由一个或者多个Row Groups组成，一个Row Groups由包含每一列的数据块组成，每个数据块包含了一个或者多个page，该page...

96700

Parquet.Net：将 Apache Parquet 移植到 .NET

张善友 2025-02-042025-02-04 08:56:43

Parquet.Net 是一个用于读取和写入 Apache Parquet 文件的纯 .NET 库，使用MIT协议开源，github仓库：https://git...

75400

R tips：使用ggplot2绘制空间坐标图

生信菜鸟团 2024-12-092024-12-09 13:04:58

cells.csv或者cells.parquet里面包含细胞质心坐标，而cellboundaries.csv.gz或者cellboundaries.parque...

76810

【python】pyarrow.parquet+pandas：读取及使用parquet文件

Qomolangma 2024-07-302024-07-30 12:29:22

pyarrow.parquet模块，可以读取和写入Parquet文件，以及进行一系列与Parquet格式相关的操作。例如，可以使用该模块读取Parquet文件...

4.6K11

Parquet存储的数据模型以及文件格式

火之高兴 2024-07-252024-07-25 15:37:56

Aapche Parquet是一种能有效存储嵌套数据的列式存储格式，在Spark中应用较多。

2.3K10

Hive中parquet压缩格式分区表的跨集群迁移记录

火之高兴 2024-07-252024-07-25 15:35:00

从华为A集群中将我们的数据迁移到华为B集群，其中数据经过华为集群管理机local跳转。

76710

Parquet与ORC:高性能列式存储 | 青训营笔记

鳄鱼儿 2024-05-212024-05-21 21:46:45

数据格式层：定义了存储层文件内部的组织格式，计算引擎通过格式层的支持来读写文件；从分层视角下的数据形态来看

2.1K10

NOIP2022模拟赛二 By JTZ 10.18

yzxoi 2024-02-022024-02-02 20:48:58

暴力枚举左端点 i，再二分一个右端点满足 k|\gcd(i,r)，再在该区间二分满足 \gcd(i,r)==k。

39710

列式存储引擎-内核机制-Parquet格式

yzsDBA 2023-09-072023-09-07 09:29:12

Parquet继承了Protocol Buffer的数据模型。每个记录由一个或多个字段组成。每个字段可以是atomic字段或者group字段。Group字段包含...

1.4K30

PySpark 读写 Parquet 文件到 DataFrame

数据STUDIO 2023-09-042023-09-04 12:50:07

现在通过调用DataFrameWriter类的parquet()函数从PySpark DataFrame创建一个parquet文件。当将DataFrame写入p...

4.8K40

Spark sql 是如何优化执行的

小石头 2022-11-102022-11-10 21:30:49

Spark SQL 端到端的完整优化流程主要包括两个阶段：Catalyst 优化器和 Tungsten。其中，Catalyst 优化器又包含逻辑优化和物理优化两...

92110

降低数据大小的四大绝招。

炼丹笔记 2022-10-272022-10-27 14:51:37

在非常多的问题中，例如商品推荐数据存储（大量的用户和商品，还有购买金额等信息），金融数据存储（大量的标的，价格等），我们不可避免的都会碰到数据过大的问题，如果对...

1.9K10

#parquet

宽表元数据膨胀怎么解？Doris Segment V3 对比 Parquet、Lance

既生瑜何生亮 | 有了 pg_duckdb/pg_mooncake 为什么还要 pg_parquet

Parquet格式火了！量化分析师用DuckDB和Polars读取，TB级数据秒处理

数据仓库选型必看：主流产品对CSV、TXT、ORC、Parquet等多格式支持全解析

Apache Parquet Avro反序列化漏洞POC：CVE-2025-30065

Apache Parquet 优势与日志应用场景解析

Hive性能提升利器：深度解析文件存储格式选择，ORC与Parquet为何成为首选？

排序对parquet 文件大小的影响

Parquet 文件是如何编写的——行组、页面、所需内存和刷新操作

Parquet.Net：将 Apache Parquet 移植到 .NET

R tips：使用ggplot2绘制空间坐标图

【python】pyarrow.parquet+pandas：读取及使用parquet文件

Parquet存储的数据模型以及文件格式

Hive中parquet压缩格式分区表的跨集群迁移记录

Parquet与ORC:高性能列式存储 | 青训营笔记

NOIP2022模拟赛二 By JTZ 10.18

列式存储引擎-内核机制-Parquet格式

PySpark 读写 Parquet 文件到 DataFrame

Spark sql 是如何优化执行的

降低数据大小的四大绝招。

热门专栏

张善友的专栏

数据科学学习手札

祝威廉

码字搬砖

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#parquet

宽表元数据膨胀怎么解？Doris Segment V3 对比 Parquet、Lance

既生瑜何生亮 | 有了 pg_duckdb/pg_mooncake 为什么还要 pg_parquet

Parquet格式火了！量化分析师用DuckDB和Polars读取，TB级数据秒处理

数据仓库选型必看：主流产品对CSV、TXT、ORC、Parquet等多格式支持全解析

Apache Parquet Avro反序列化漏洞POC：CVE-2025-30065

Apache Parquet 优势与日志应用场景解析

Hive性能提升利器：深度解析文件存储格式选择，ORC与Parquet为何成为首选？

排序对parquet 文件大小的影响

Parquet 文件是如何编写的——行组、页面、所需内存和刷新操作

Parquet.Net： 将 Apache Parquet 移植到 .NET

R tips：使用ggplot2绘制空间坐标图

【python】pyarrow.parquet+pandas：读取及使用parquet文件

Parquet存储的数据模型以及文件格式

Hive中parquet压缩格式分区表的跨集群迁移记录

Parquet与ORC:高性能列式存储 | 青训营笔记

NOIP2022模拟赛二 By JTZ 10.18

列式存储引擎-内核机制-Parquet格式

​PySpark 读写 Parquet 文件到 DataFrame

Spark sql 是如何优化执行的

降低数据大小的四大绝招。

张善友的专栏

数据科学学习手札

祝威廉

码字搬砖

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Parquet.Net：将 Apache Parquet 移植到 .NET

PySpark 读写 Parquet 文件到 DataFrame