我最近开始研究hbase,但对此知之甚少。我有多个csv文件(大约20000),我希望将它们导入到hbase表中,使每个文件都是HBase中的一行,并且文件的名称将是行键。这意味着csv文件的每一行都是hbase中的一个单元格,我需要将它们放在一个struct数据类型(由25个字段组成)中。不幸的是,我对这个问题一无所知。如果有人愿意给我一些建议,我很感激。
下面是csv文件的示例:
time, a, b, c, d, ..., x
0.000,98.600,115.700,54.200,72.900,...,0.000
60.000,80.100,113.200,54.500,72.100,...,0.000
120.000,80.000,114.200,55.200,72.900,...,0.000
180.000,80.000,118.400,56.800,75.500,...,0.000
240.000,80.000,123.100,59.600,79.200,...,0.000
300.000,80.000,130.100,61.600,82.500,...,0.000
谢谢,
发布于 2019-01-28 23:23:09
Importtsv是将TSV或CSV格式的数据加载到HBase中的实用工具。
Importtsv有两个不同的用法:
以HDFS格式将数据从TSV或CSV加载到Hbase是允许您将数据从hdfs文件加载到HBase表的示例。必须将本地文件复制到hdfs文件夹,然后才能将其加载到HBase表中。
$ hbase org.apache.hadoop.hbase.mapreduce.ImportTsv - command tsv.分离器=‘,’-Dimporttsv.columns=HBASE_ROW_KEY,personal_data:name,personal_data:city,personal_data:age personal /test上面的命令将生成MapReduce作业,以便将数据从CSV文件加载到HBase表。
https://stackoverflow.com/questions/51235479
复制相似问题