如何再次覆盖/重用Hadoop作业的现有输出路径和agian

在 Hadoop 中，覆盖现有输出路径和重用输出路径的方法如下：

使用 FileSystem 类来删除现有输出路径

在运行 Hadoop 作业之前，可以使用 FileSystem 类来删除现有输出路径。以下是一个示例代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class HadoopJob {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);
        Path outputPath = new Path("hdfs://localhost:9000/output");
        if (fs.exists(outputPath)) {
            fs.delete(outputPath, true);
        }
        // 在这里运行 Hadoop 作业
    }
}

使用 -D 参数覆盖输出路径

在运行 Hadoop 作业时，可以使用 -D 参数来覆盖现有输出路径。以下是一个示例命令：

hadoop jar hadoop-job.jar -D mapreduce.output.fileoutputformat.outputdir=hdfs://localhost:9000/output

使用 FileOutputFormat 类来设置输出路径

在 Hadoop 作业中，可以使用 FileOutputFormat 类来设置输出路径。以下是一个示例代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class HadoopJob {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Hadoop Job");
        job.setJarByClass(HadoopJob.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/input"));
        FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/output"));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

在这个示例中，我们使用 FileOutputFormat.setOutputPath() 方法来设置输出路径。

使用 Path 类来检查输出路径是否存在

在 Hadoop 作业中，可以使用 Path 类来检查输出路径是否存在。以下是一个示例代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class HadoopJob {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Hadoop Job");
        job.setJarByClass(HadoopJob.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/input"));
        Path outputPath = new Path("hdfs://localhost:9000/output");
        FileSystem fs = outputPath.getFileSystem(conf);
        if (fs.exists(outputPath)) {
            fs.delete(outputPath, true);
        }
        FileOutputFormat.setOutputPath(job, outputPath);
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

在这个示例中，我们使用 Path 类来检查输出路径是否存在，并在存在时删除它。

总之，在 Hadoop 中覆盖现有输出路径和重用输出路径的方法有很多种。你可以根据自己的需求选择合适的方法。