以下用例:
我对.gz压缩中大小约为500.gz的数据运行一个单元查询:
select count(distinct c1), c2 from t1 group by c2;
此查询的结果是~2800个映射作业和~400个裁减作业。
当设置每个160 to实例存储有20个实例的Hadoop集群时,作业将停止在97%的map和21%的减少进度,然后回落到94%的map和19%的进度,然后再没有任何进展。我认为这是因为HDFS的磁盘空间处于使用限制。也许我可以在那天晚些时候提供一条异常消息。
:是否有一种方法可以根据正在处理的数据的输入大小粗略计算HDFS所需的磁盘空间?请记住,输入数据以.gz格
这可能是一个简单的问题,但它是概念性的,而不是一个清晰的答案,谷歌可以提供。但我目前的理解是,要将数据“摄取”到hadoop集群中,首先必须在主pc或集群单元上获得数据。这与我知道可以使用hadoop作为分散数据收集的方法相矛盾,如果每个单元都有传感器,您可以在设备上收集数据,并以这种方式摄入数据。
假设我有一个Raspberry pi (或任何其他外围以太网设备),并且我想将数据添加到Hadoop分布式处理/数据库中。我是否需要使这个以太网设备成为集群上的整个节点(具有自己的HDFS贡献,等等)?为了让设备简单地将数据输入Hadoop集群,以便可以从任何节点访问数据?如果我不需要这样做,那么
我正在尝试将Google Cloud Storage中的Bucket中的数据复制到本地Hadoop集群(我已经安装在我的Mac上)。我已经按照这个链接中给出的说明进行了操作;,但是当我执行hdfs命令hdfs dfs -ls gs://tempuserstorage时,我得到了以下错误。
17/04/28 15:42:13 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/04/2