我有多个小的parquet文件生成作为配置单元ql作业的输出,我想合并输出文件到单个拼图文件?
使用hdfs or linux commands最好的方法是什么?我们过去常常使用cat命令合并文本文件,但这也适用于parquet吗?我们是否可以在编写输出文件时使用HiveQL本身,就像我们在spark中使用repartition或coalesc方法一样
而且,磁盘的nomerge是0,这意味着启用了合并。
但是,在运行fio时,我发现没有发生合并(参见fio结果:merge=0/0)。在Amazon Linux 2016.09 on AWS上执行相同的设置和相同的fio命令(相同的VM类型和相同的磁盘配置),合并就发生了。那么,您能告诉我Ubuntu 1604和Amazon Linux在这个设置上有什么不同吗?如何在Ubuntu上启用此合并?root@ip-10-0-96-236:~# cat</em
如果我将cat命令保存到字符串中,然后执行它,那么我将得到一个错误。linux# cmd="cat /data/test/test.tx* | grep toto"cat: |: No such file or directorycat: grep: No such file or directory
cat: toto: No such fi