腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8169)
视频
沙龙
2
回答
将HDF5转换为
Parquet
而不加载到内存中
、
、
、
、
由于内存太大,我想将其转换为
Parquet
格式,并使用pySpark执行一些基本的数据预处理(规范化、查找相关矩阵等)。但是,我不知道如何将整个数据集转换为
Parquet
,而不将其加载到内存中。我想到的一件事是以块的形式读取HDF5文件,并将其逐步保存到
Parquet
文件中:nrows = test_store.get_storer('df').nrows chunksi
浏览 11
提问于2017-09-11
得票数 12
回答已采纳
2
回答
用于写入文件的拼接版本
、
、
有没有办法找出在HDFS中写拼图文件时使用了什么拼图版本?我正在尝试查看不同的文件是使用相同的拼图版本还是不同的版本编写的。
浏览 1
提问于2015-11-19
得票数 6
1
回答
AvroParquetOutputFormat setSchema方法在flink版本1.1中抛出异常
AvroParquetOutputFormat.setSchema(job,schema )时抛出以下异常; at com.App.main(App.java:53) Caused by: java.lang.ClassNotFoundException: org.apache.
parquet
.ParquetRuntimeExcept
浏览 0
提问于2016-08-10
得票数 0
2
回答
火花2.3+使用
parquet
.enable.dictionary?
、
我正在寻找关于如何在星火中使用
parquet
.enable.dictionary的文档(最新的2.3.1)。在创建SparkSession时,可以将其设置为"true“或"false”。具体来说,以下是我的问题:当Spark读取
Par
浏览 1
提问于2018-09-14
得票数 8
回答已采纳
1
回答
无法使用Spark (sparklyr)独立模式写入拼图,无法重命名DeprecatedRawLocalFileStatus
、
我正在尝试使用以下代码写入拼图文件:然而,我经常收到以下错误: at java.lang.Thread.run(Thread.javajava.io.IOExce
浏览 0
提问于2017-10-31
得票数 1
1
回答
朱莉娅如何将CSV转换为
Parquet
、
、
我有一个CSV文件,我想转换到
Parquet
在朱莉娅。我在论坛上找不到任何关于它的东西,也找不到关于这个转换的文档。这样的转换在朱莉娅是可能的,还是我只是简单地将CSV解读为
Parquet
?StatsPlots, StatsModels using Plots, PlutoUI, HTTP, DelimitedFiles,
Parquet
浏览 1
提问于2021-03-16
得票数 1
回答已采纳
2
回答
PARSER -从spark中的hdfs加载数据时出现Nosuchfield错误
、
Dataset<Row> ds = spark.read().
parquet
("hdfs://localhost:9000/test/arxiv.
parquet
");Exception
浏览 0
提问于2021-06-24
得票数 0
1
回答
无法创建列数据类型为'STRING‘的拼接蜂窝表
、
、
hive> create table ptest1 (a INT, b DOUBLE) OUTPUTFORMAT '
parquet
.hive.DeprecatedParquetOutputFormathive> create table pt
浏览 1
提问于2015-05-11
得票数 0
2
回答
如何以加密格式保存spark数据集?
、
、
、
、
dataset.write().mode("overwrite").
parquet
(parquetFile); 我看到了一个,但我的查询不同,因为我正在向本地磁盘写入数据。
浏览 3
提问于2020-08-28
得票数 0
1
回答
使用箭头write_dataset函数追加拼花数据
、
当base_dir为空时,会创建part-0.0.
parquet
文件。但是,当试图再次将新数据写入base_dir部件时-0。我希望看到的是-1. base_dir中的新数据。谢谢
浏览 9
提问于2022-03-28
得票数 0
2
回答
R- write_
parquet
循环
、
、
、
fwrite正在遍历工作目录中的许多.csv文件,但是当我编写.
parquet
时,它每次都会覆盖。 select = c("x","y","z")) write_
parquet
(bb, 'E:/P/i.
parquet<
浏览 7
提问于2021-11-23
得票数 0
回答已采纳
1
回答
我需要哪个"JAR“文件才能在Scala中导入"org.apache.
parquet
”?
、
、
、
、
当我尝试这个:它出错了:-rw-r--r--. 1 root root 278926 Jun 24 2019
parquet
-encodingJun 24 2019
parquet
-hadoop-1.5.0
浏览 5
提问于2020-08-20
得票数 0
2
回答
使用
Parquet
-tools.jar从
Parquet
文件中转储特定列
、
我想使用
parquet
tools-1.8.1.jar.只转储某个文本文件上的特定列,但无法这样做。我正在尝试下面的命令。请注意,我的列名有正斜杠。
parquet
-tools-1.8.1.jar dump --column 'dir1/log1/job12121' '/hdfs-path/to/
parquet
file with space.
parquet
' > /home/local/
pa
浏览 4
提问于2016-07-20
得票数 2
2
回答
如何在Ubuntu18.04LTS上安装拼花工具而不需要从源头构建
、
、
我真的不喜欢从源代码构建thirft,然后构建
parquet
-mr。我想要的All是
parquet
-tools**.**$ lsb_release -a No LSB modules are available.===============================================";安装sudo apt-get install thrift-compiler (安装0.9.x,在构建
parquet
-mr
浏览 0
提问于2020-12-02
得票数 1
回答已采纳
1
回答
如何对列表中的元素求和,并在Python中将元素求和为n值时使用它们创建子列表
、
),('filepath.
parquet
',1000),('filepath.
parquet
',1000),('filepath.
parquet
',1000), ('filepath.
p
浏览 43
提问于2021-03-02
得票数 0
回答已采纳
2
回答
对hdfs中的文件使用拼花工具
、
、
、
现在,我想在hdfs中对我的
parquet
文件运行一些命令。我试过这个:./
parquet
-tools meta hdfs://localhost/my_
parquet
_file.
parquet
错误:找不到或加载主类
parquet
.tools.Main
浏览 1
提问于2018-11-14
得票数 0
2
回答
我如何组合代码
、
有问题的地方在这里: for (int i = 0; i <
parquet
.size(); ++i) {for (int j = 0; j <
parquet
[i].size(); ++j) { if (j + 1<
parquet
[i].size() &&
parquet<
浏览 2
提问于2015-04-01
得票数 2
回答已采纳
5
回答
安装拼图工具
、
、
、
、
我克隆了这个代码库:git clone https://github.com/apache/
parquet
-mr然后我做了`mvn干净的包
浏览 20
提问于2018-11-15
得票数 9
1
回答
带有JavaFX -未命名模块的
、
、
、
from both
parquet
.column and
parquet
.hadoopjava: module
parquet
.hadoop reads package org.apache.
parquet
fr
浏览 7
提问于2022-05-20
得票数 0
7
回答
如何将
Parquet
文件读入Pandas DataFrame?
、
、
、
、
如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下,将适度大小的
Parquet
数据集读入内存中的Pandas DataFrame?我以为Blaze/Odo会让这成为可能: Odo文档提到了
Parquet
,但是这些例子似乎都经过了一个外部Hive运行时。
浏览 22
提问于2015-11-19
得票数 146
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Apache Kylin 原理介绍与新架构分享(Kylin On Parquet)
Pandas 2.0正式版发布:Pandas 1.5,Polars,Pandas 2.0 速度对比测试
Hive底层数据存储格式详解
关于Impala优化的几点思考
Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券