如何在mapReduce Hadoop框架中排序值(与其对应的键)？

在MapReduce Hadoop框架中，可以通过自定义排序器来实现对值（与其对应的键）的排序。以下是一种常见的实现方法：

在Map阶段，Mapper函数将键值对映射为中间键值对，其中键为要排序的值，值为对应的键。例如，如果要对一组数字进行排序，键可以是数字，值可以是标识符。
在Reduce阶段，Reducer函数接收到来自Mapper函数的中间键值对，并将它们按照键进行排序。这里可以使用自定义的排序器来指定排序规则。
在自定义排序器中，可以实现Comparator接口，并重写compare()方法来定义排序规则。比较器可以根据值的大小进行排序，也可以根据其他需要进行排序的属性。
在Reducer函数中，通过设置JobConf对象的setOutputKeyComparatorClass()方法来指定使用的排序器。

以下是一个示例代码：

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.conf.Configuration;

public class SortValues {
  
  public static class SortMapper extends Mapper<Object, Text, IntWritable, Text> {
    
    private IntWritable value = new IntWritable();
    private Text key = new Text();
    
    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
      // 将输入的键值对拆分为键和值
      String[] parts = value.toString().split("\t");
      key.set(parts[0]);
      value.set(Integer.parseInt(parts[1]));
      
      // 将值作为键，键作为值输出
      context.write(value, key);
    }
  }
  
  public static class SortReducer extends Reducer<IntWritable, Text, Text, IntWritable> {
    
    public void reduce(IntWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
      // 将键值对进行反转，输出结果
      for (Text value : values) {
        context.write(value, key);
      }
    }
  }
  
  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "sort values");
    job.setJarByClass(SortValues.class);
    job.setMapperClass(SortMapper.class);
    job.setReducerClass(SortReducer.class);
    job.setOutputKeyClass(IntWritable.class);
    job.setOutputValueClass(Text.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

在这个示例中，Mapper函数将输入的键值对拆分为键和值，并将值作为键，键作为值输出。Reducer函数接收到中间键值对后，将它们按照键进行排序，并将键值对进行反转，最终输出结果。

对于Hadoop框架中的排序操作，腾讯云提供了适用于大数据处理的云产品TencentDB for Hadoop，它提供了高性能的分布式存储和计算能力，可以方便地进行MapReduce任务的处理。您可以通过访问以下链接了解更多关于TencentDB for Hadoop的信息：TencentDB for Hadoop产品介绍

如何在mapReduce Hadoop框架中排序值(与其对应的键)？

、、、、

我正在尝试使用Hadoop mapReduce对输入数据进行排序。问题是我只能按键对键-值对排序，而我试图按值对它们排序。每个值的键都是用计数器创建的，所以第一个值(234)的键为1，第二个值(944)的键为2，依此类推。你知道如何做到这一点并按值对输入进行

浏览 21提问于2019-04-03得票数 0

3回答

在映射器和减法器之前，Hadoop MapReduce如何处理相同的键/值对？

、

它是否会留下一个并删除其他的，或者将它们全部传递到mapper和reducer中？

浏览 1提问于2012-10-31得票数 0

回答已采纳

1回答

您建议如何使用Hadoop streaming执行"Join“？

、、

我有两个文件，格式如下：field4, field1, field5 不同的字段编号表示不同的含义。我希望基于共同字段(上面示例中的field1)使用Hadoop流连接这两个文件，这样输出将是field1, field2, field3, field4, field5 (其他排序也可以，只要它们包含所有字段

浏览 2提问于2010-11-13得票数 11

1回答

Hadoop和Python:禁用排序

、、、、

我已经意识到，当使用Python代码运行Hadoop时，映射器或还原程序(不确定哪个)在reducer.py输出之前对输出进行排序。目前，它似乎是字母数字排序。我想知道是否有一种方法完全禁用这一点。我希望根据从mapper.py打印程序的顺序，获得程序的输出。我在Java中找到了答案，但Python没有答案。我是否需要修改mapper.py或命令行参数？

浏览 4提问于2013-10-04得票数 2

7回答

TaskTracker为每个输入拆分或每个键值对生成一个新的映射器？

MapReduce程序中的哪个Hadoop服务生成了一个新的Mapper？ <e

浏览 4提问于2015-01-02得票数 0

2回答

如何覆盖Hadoop的默认排序

、、

我有一个映射-减少作业，其中的键是数字从1-200。我的预期输出是按数字顺序的( number，value)。但我得到的输出如下：10 value :2 value :3 value 我知道这是因为Map的默认行为-减少按升序排序键。我只想把我的钥匙按数字排序。我怎样才能做到这一点？

浏览 6提问于2015-03-06得票数 0

回答已采纳

2回答

Hadoop MapReduce的用途

、、、

目前，我正在阅读一些关于Hadoop和流行的MapReduce算法的论文。但是，我看不到MapReduce的价值，如果有人能给我一些见解，我会很高兴的。具体地说：据说，MapReduce接收一个文件并生成密钥值对。什么是钥匙？只是一个词，一个词的组合还是别的什么？如果关键是文件中的单词，那么为MapReduce编写代码的目的是什么？

浏览 7提问于2016-01-05得票数 1

1回答

如何使用Hadoop* MapReduce或Spark进行数据预处理？*

、、、

我是Hadoop MapReduce/Spark的新手，对于我的目标项目，我想使用Hadoop MapReduce/Spark执行数据预处理。我知道Hadoop MapReduce的基础知识，但是我不知道如何使用这个框架实现预处理算法/方法。对于Hadoop，我必须定义Map()和Reduce()，它将<key, value>对作为从Mapper到Reduc

浏览 6提问于2017-02-16得票数 0

3回答

在Hadoop中可写和WritableComparable？

、

有谁能解释一下吗：这两者有什么不同？提前谢谢，

浏览 7提问于2015-09-11得票数 17

1回答

如何在hadoop中实现排序？

、、

我的问题是对文件中的值进行排序。键和值是整数，需要维护排序值的键。key value3 45 231 244 12我正在处理大量数据，必须在hadoop机器集群中运行代码。我怎么才能用mapreduce做这件事？

浏览 7提问于2013-08-09得票数 10

1回答

MapReduce实例

、

我读到了mapreduce，我想知道一个特定的场景。假设我们有几个文件(例如fileA、fileB、fileC )，每个文件由多个整数组成。如果我们想对所有文件中的数字进行排序，以创建如下内容：34 fileB60 fileA地图和减少流程将如何工作？目前，这是我所拥有的，但并不完全正确；对临时键、<em

浏览 3提问于2015-12-14得票数 5

2回答

减速机输出各键值列表的排序

我对hadoop很陌生，对hadoop一点也不困惑。在mapreduce作业中，还原程序获取每个键的值列表。我想知道，每个键的值的默认顺序是什么。与从映射器中写出的顺序相同。您能否更改每个键中值的顺序(如asc或desc )。

浏览 3提问于2016-01-14得票数 1

5回答

mapreduce作业的映射阶段的输出总是排序的吗？

、、

例如，当我使用以下输入文本运行一个简单的wordcount程序时：Hadoop programminglets see if thisworkshello world这是我得到的输出：Hadoop 1hello 11world 1如您所见

浏览 1提问于2014-07-16得票数 6

回答已采纳

3回答

使用Hadoop* MapReduce进行排序字数统计*

、、、

我对MapReduce非常陌生，我完成了一个Hadoop字数统计示例。在该示例中，它生成单词计数未排序文件(带有键-值对)。那么，是否可以通过将另一个MapReduce任务与前一个任务相结合来按单词出现的次数对其进行排序呢？

浏览 1提问于2010-03-31得票数 10

2回答

带有“自定义”键的MapReduce

、、、、

我有以下问题:我有大量的键值对形式的数据。关键是一些id和值--一些文本。我的目标是将这些对象分组到文本片段在某种程度上“相似”的集群中。因此，如果将我的文本片段作为键，将id作为值，那么它看起来就像是MapReduce的任务。但这样的键不是传统的MapReduce使用方式，而且我并不真正了解MapReduces框架</

浏览 1提问于2012-08-04得票数 1

1回答

关于KFS的Mapreduce是如何发生的？

、

我想了解如何在Hadoop中使用KFS作为文件系统来实现mapreduce。 .因此，假设我的输入文件分散在不同的节点(Kosmos服务器)中，我(使用KFS作为文件系统的hadoop客户端)如何发出Mapreduce命令？此外，在发出Mapreduce命令之后，我的hadoop客户端将从不同服务器获取所有数据到本地计算机，然后执行Mapreduce，还是会在输

浏览 1提问于2013-02-22得票数 0

回答已采纳

1回答

请描述mapReduce有几种排序及排序发生的阶段？

、

浏览 260提问于2021-10-04

1回答

为什么Hadoop选择MapReduce作为其计算引擎？

我知道MapReduce(MR)是Hadoop的三个核心框架之一，我熟悉它的mapper-shuffle-reducer进程。我的问题可以分为两个部分：2)其他语言(如：shell、python)的计算部分是如何工作的?它们的计算过程与MR相似吗？

浏览 0提问于2018-05-30得票数 0

1回答

MapReduce Hadoop中的排序

、、、

在Hadoop MapReduce中，我有几个基本问题。假设有50名减速器被处决。它会生成50个文件吗？所有单独的文件都被排序了？所有减速机的输出都是排序

浏览 1提问于2015-07-16得票数 3

回答已采纳

1回答

Hadoop2中基准测试排序过程中出现的错误-分区不匹配

、、、、

我正在尝试对Hadoop2 MapReduce框架进行基准测试。这不是TeraSort。但是testmapredsort。=10 /data/unsorted-datahadoop jar hadoop/share/hadoop/mapreduce/hadoop-mapreduce<

浏览 3提问于2014-08-18得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在mapReduce Hadoop框架中排序值(与其对应的键)？

相关·内容

如何在mapReduce Hadoop框架中排序值(与其对应的键)？

在映射器和减法器之前，Hadoop MapReduce如何处理相同的键/值对？

您建议如何使用Hadoop streaming执行"Join“？

Hadoop和Python:禁用排序

TaskTracker为每个输入拆分或每个键值对生成一个新的映射器？

如何覆盖Hadoop的默认排序

Hadoop MapReduce的用途

如何使用Hadoop* MapReduce或Spark进行数据预处理？*

在Hadoop中可写和WritableComparable？

如何在hadoop中实现排序？

MapReduce实例

减速机输出各键值列表的排序

mapreduce作业的映射阶段的输出总是排序的吗？

使用Hadoop* MapReduce进行排序字数统计*

带有“自定义”键的MapReduce

关于KFS的Mapreduce是如何发生的？

请描述mapReduce有几种排序及排序发生的阶段？

为什么Hadoop选择MapReduce作为其计算引擎？

MapReduce Hadoop中的排序

Hadoop2中基准测试排序过程中出现的错误-分区不匹配

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐