parquet - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

将HDF5转换为Parquet而不加载到内存中

、、、、

由于内存太大，我想将其转换为Parquet格式，并使用pySpark执行一些基本的数据预处理(规范化、查找相关矩阵等)。但是，我不知道如何将整个数据集转换为Parquet，而不将其加载到内存中。我想到的一件事是以块的形式读取HDF5文件，并将其逐步保存到Parquet文件中：nrows = test_store.get_storer('df').nrows chunksi

浏览 11提问于2017-09-11得票数 12

回答已采纳

2回答

用于写入文件的拼接版本

、、

有没有办法找出在HDFS中写拼图文件时使用了什么拼图版本？我正在尝试查看不同的文件是使用相同的拼图版本还是不同的版本编写的。

浏览 1提问于2015-11-19得票数 6

1回答

AvroParquetOutputFormat setSchema方法在flink版本1.1中抛出异常

AvroParquetOutputFormat.setSchema(job，schema )时抛出以下异常； at com.App.main(App.java:53) Caused by: java.lang.ClassNotFoundException: org.apache.parquet.ParquetRuntimeExcept

浏览 0提问于2016-08-10得票数 0

2回答

火花2.3+使用parquet.enable.dictionary？

、

我正在寻找关于如何在星火中使用parquet.enable.dictionary的文档(最新的2.3.1)。在创建SparkSession时，可以将其设置为"true“或"false”。具体来说，以下是我的问题：当Spark读取Par

浏览 1提问于2018-09-14得票数 8

回答已采纳

1回答

无法使用Spark (sparklyr)独立模式写入拼图，无法重命名DeprecatedRawLocalFileStatus

、

我正在尝试使用以下代码写入拼图文件：然而，我经常收到以下错误： at java.lang.Thread.run(Thread.javajava.io.IOExce

浏览 0提问于2017-10-31得票数 1

1回答

朱莉娅如何将CSV转换为Parquet

、、

我有一个CSV文件，我想转换到Parquet在朱莉娅。我在论坛上找不到任何关于它的东西，也找不到关于这个转换的文档。这样的转换在朱莉娅是可能的，还是我只是简单地将CSV解读为Parquet？StatsPlots, StatsModels using Plots, PlutoUI, HTTP, DelimitedFiles, Parquet

浏览 1提问于2021-03-16得票数 1

回答已采纳

2回答

PARSER -从spark中的hdfs加载数据时出现Nosuchfield错误

、

Dataset<Row> ds = spark.read().parquet("hdfs://localhost:9000/test/arxiv.parquet");Exception

浏览 0提问于2021-06-24得票数 0

1回答

无法创建列数据类型为'STRING‘的拼接蜂窝表

、、

hive> create table ptest1 (a INT, b DOUBLE) OUTPUTFORMAT 'parquet.hive.DeprecatedParquetOutputFormathive> create table pt

浏览 1提问于2015-05-11得票数 0

2回答

如何以加密格式保存spark数据集？

、、、、

dataset.write().mode("overwrite").parquet(parquetFile); 我看到了一个，但我的查询不同，因为我正在向本地磁盘写入数据。

浏览 3提问于2020-08-28得票数 0

1回答

使用箭头write_dataset函数追加拼花数据

、

当base_dir为空时，会创建part-0.0.parquet文件。但是，当试图再次将新数据写入base_dir部件时-0。我希望看到的是-1. base_dir中的新数据。谢谢

浏览 9提问于2022-03-28得票数 0

2回答

R- write_parquet循环

、、、

fwrite正在遍历工作目录中的许多.csv文件，但是当我编写.parquet时，它每次都会覆盖。 select = c("x","y","z")) write_parquet(bb, 'E:/P/i.parquet<

浏览 7提问于2021-11-23得票数 0

回答已采纳

1回答

我需要哪个"JAR“文件才能在Scala中导入"org.apache.parquet”？

、、、、

当我尝试这个：它出错了：-rw-r--r--. 1 root root 278926 Jun 24 2019 parquet-encodingJun 24 2019 parquet-hadoop-1.5.0

浏览 5提问于2020-08-20得票数 0

2回答

使用Parquet-tools.jar从Parquet文件中转储特定列

、

我想使用parquet tools-1.8.1.jar.只转储某个文本文件上的特定列，但无法这样做。我正在尝试下面的命令。请注意，我的列名有正斜杠。parquet-tools-1.8.1.jar dump --column 'dir1/log1/job12121' '/hdfs-path/to/parquet file with space.parquet' > /home/local/pa

浏览 4提问于2016-07-20得票数 2

2回答

如何在Ubuntu18.04LTS上安装拼花工具而不需要从源头构建

、、

我真的不喜欢从源代码构建thirft，然后构建parquet-mr。我想要的All是 parquet-tools**.**$ lsb_release -a No LSB modules are available.==============================================="；安装sudo apt-get install thrift-compiler (安装0.9.x，在构建parquet-mr

浏览 0提问于2020-12-02得票数 1

回答已采纳

1回答

如何对列表中的元素求和，并在Python中将元素求和为n值时使用它们创建子列表

、

),('filepath.parquet',1000),('filepath.parquet',1000),('filepath.parquet',1000), ('filepath.p

浏览 43提问于2021-03-02得票数 0

回答已采纳

2回答

对hdfs中的文件使用拼花工具

、、、

现在，我想在hdfs中对我的parquet文件运行一些命令。我试过这个：./parquet-tools meta hdfs://localhost/my_parquet_file.parquet 错误:找不到或加载主类parquet.tools.Main

浏览 1提问于2018-11-14得票数 0

2回答

我如何组合代码

、

有问题的地方在这里： for (int i = 0; i < parquet.size(); ++i) {for (int j = 0; j < parquet[i].size(); ++j) { if (j + 1< parquet[i].size() && parquet<

浏览 2提问于2015-04-01得票数 2

回答已采纳

5回答

安装拼图工具

、、、、

我克隆了这个代码库：git clone https://github.com/apache/parquet-mr然后我做了`mvn干净的包

浏览 20提问于2018-11-15得票数 9

1回答

带有JavaFX -未命名模块的

、、、

from both parquet.column and parquet.hadoopjava: module parquet.hadoop reads package org.apache.parquetfr

浏览 7提问于2022-05-20得票数 0

7回答

如何将Parquet文件读入Pandas DataFrame？

、、、、

如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下，将适度大小的Parquet数据集读入内存中的Pandas DataFrame？我以为Blaze/Odo会让这成为可能: Odo文档提到了Parquet，但是这些例子似乎都经过了一个外部Hive运行时。

浏览 22提问于2015-11-19得票数 146

回答已采纳

点击加载更多

将HDF5转换为Parquet而不加载到内存中

用于写入文件的拼接版本

AvroParquetOutputFormat setSchema方法在flink版本1.1中抛出异常

火花2.3+使用parquet.enable.dictionary？

无法使用Spark (sparklyr)独立模式写入拼图，无法重命名DeprecatedRawLocalFileStatus

朱莉娅如何将CSV转换为Parquet

PARSER -从spark中的hdfs加载数据时出现Nosuchfield错误

无法创建列数据类型为'STRING‘的拼接蜂窝表

如何以加密格式保存spark数据集？

使用箭头write_dataset函数追加拼花数据

R- write_parquet循环

我需要哪个"JAR“文件才能在Scala中导入"org.apache.parquet”？

使用Parquet-tools.jar从Parquet文件中转储特定列

如何在Ubuntu18.04LTS上安装拼花工具而不需要从源头构建

如何对列表中的元素求和，并在Python中将元素求和为n值时使用它们创建子列表

对hdfs中的文件使用拼花工具

我如何组合代码

安装拼图工具

带有JavaFX -未命名模块的

如何将Parquet文件读入Pandas DataFrame？

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐