我有一个map-reduce作业,它的输入是一个大数据集(假设大小为100 of )。这个map-reduce作业所做的是将大数据拆分成块,并写入单独的文件,每个数据块一个文件。也就是说,作业的输出是多个文件,每个文件的大小为64MB。
此map-reduce作业的输出用作另一个map-reduce作业的输入。由于新输入由多个文件组成,每个文件的大小为64MB,那么第二个map-reduce作业中的每个映射器是只读取一个文件还是可能读取多个文件?
我正在创建多个映射器和缩减程序。两个映射器和reducers完成它的工作,并将输出保存在HDFS输出文件夹中。现在,我需要从第三个reducer读取HDFS中的这两个缩减文件,但不知道如何操作。我正在使用Rhipe做map-reduce。代码如下: pre = { #read file from previous reducers/to/file/in/hdfs")