将数据输入和输出Elastic MapReduce HDFS_指定输入数据和输出数据的路径_Sqoop将数据导入到配置单元和hdfs - 腾讯云开发者社区

、、、

我看到人们将EMR输出写到HDFS的，但是我还没有找到它是如何实现的例子。最重要的是，似乎说，EMR流作业的-输出参数必须是一个S3桶。当我实际尝试运行一个脚本(在本例中，使用python和mrJob)时，它会引发一个“无效的S3 URI”错误。/mrjob.conf --no-output \ hdfs:///my-input-direc

浏览 6提问于2013-05-08得票数 3

2回答

Hadoop看不到我的输入目录。

、、、

我遵循的是，我正在分配输入和输出目录。我在这里创建了两个目录：~/projects/hadoop/WordCount/output/找到我的hdfs目录hdfs

浏览 4提问于2017-02-03得票数 0

回答已采纳

1回答

我有一个MR作业运行在电子病历，它存储的输出目前在S3。还原器的输出将是同一个映射器(想想标识映射器)的输入，我希望尽可能快地执行连续运行，而不是等待EMR写入S3，然后在“x”分钟之后安排映射器读取数据。写和读S3需要一段很长的时间(~3-5分钟)，所以我想知道是否有一种方法可以避免连续运行时阅读S3？此外，我还需要将mapreduce作业的输出写入S3，因为这些数据对我很重要，需要持久化。但是，对于每次连续的MR运行，我都不想从S3读取，而是可以

浏览 3提问于2016-05-27得票数 1

2回答

使用distcp或s3distcp将文件从S3复制到HDFS

、、、

我正在尝试使用以下命令将文件从S3复制到HDFS：但是，这是不起作用的请帮助我按照适当的步骤一步一步地实现从S3到HDFS的文件复制。提前谢谢。

浏览 4提问于2014-03-27得票数 1

回答已采纳

2回答

Hadoop将文件从本地计算机上传到亚马逊s3

、、、

我正在开发一个Java MapReduce应用程序，它必须能够提供从用户本地机器到S3存储桶的一些图片的上传服务。问题是应用程序必须在EC2集群上运行，所以我不确定在复制文件时如何引用本地计算机。

浏览 0提问于2010-12-07得票数 2

1回答

Hadoop >在Hadoop作业运行时，datanode和namenode进程是否正在运行

、

我确信当通过"hdfs dfs“命令将本地文件系统中的大文件加载到HDFS时，会使用它们。但它是否也在Hadoop MapReduce作业运行时使用？我的理解是没有，但也许在Shuffle期间也会使用它，当map函数的输出可能从一个datanode转移到另一个datanode时。

浏览 0提问于2015-11-14得票数 0

1回答

在MRJob中运行步骤之前，将S3数据加载到HDFS的具体语法示例是什么？

、、、

当我运行MRJob脚本并使用命令行界面启动EMR集群时，我试图弄清楚如何将数据从S3加载到集群中的HDFS。我希望将此作为设置过程的一部分。为了将我的S3数据预加载到HDFS中，我已经搜索了很多地方，以便深入了解MRJob应该使用的正确语法。我仍然在快速掌握术语和流程。(我不能发布超过2个链接，但谷歌搜索会给出更多关于这方面的信息) 我的方法是将JarStep作为MRStep之前的一个步骤包含在MRJob脚本的steps方法中。我试图将S3DistCp

浏览 1提问于2014-07-11得票数 0

3回答

Hadoop输出到MongoDb

、、、、

我想编写Java程序，它从HDFS读取输入，使用MapReduce处理输入，并将输出写入MongoDb。实际上，读取HDFS并使用MapReduce处理它很简单。是否支持Java将结果写

浏览 3提问于2013-10-21得票数 1

2回答

从Java执行Pig脚本时出错

、、

static void main(String[] args) { PigServer pigServer = new PigServer(ExecType.MAPREDUCE

浏览 2提问于2016-03-11得票数 0

3回答

在Hadoop MapReduce中，地图/合并和还原阶段之后的数据保存在哪里？

、、、

在Spark中，我们可以随时将数据保存在内存中，但我想知道在Hadoop MapReduce中，数据保存在地图和缩减阶段之间的位置。它是否保存在HDFS、磁盘或RAM中？我的意思是，当数据被洗牌时(在Map/Combiner之后，在减缩之前，也就是说)，它保存在哪里？

浏览 5提问于2016-10-13得票数 0

回答已采纳

1回答

InvalidJobConfException:未设置输出目录

、

我使用Cloudera 作为mapreduce。当我运行mapreduce程序时，我会得到这个错误。我能知道我错过了什么吗？

浏览 3提问于2016-02-18得票数 1

1回答

hadoop - Hadoop jar输入路径问题

、、、

我遇到的问题是，hadoop命令需要一个输入路径，但是我的MapReduce作业从数据库获取输入，因此不需要/有一个输入目录。我已经将JobConf输入格式设置为DBInputFormat，但是当我的工作受到干扰时，如何表示这一点呢？//Here is the command

浏览 0提问于2013-10-07得票数 1

回答已采纳

2回答

Hadoop HDFS中块的概念

、

我读到Hadoop使用HDFS，它将创建特定大小的块。第三个问题，，是在拆分之前(即InputFormat类的getSplits方法)之前确定和创建块，而不考虑拆分的数量，还是取决于拆分后的分块？问题是运行任务之前和之后的块，还是取决于配置，是否有两种类型的块--一种用于存储文件，另一种用于分组文件并通过网络将它们发送到数据节点以执行任务？

浏览 2提问于2016-11-27得票数 2

回答已采纳

1回答

将文件直接从HDFS读入shell函数

、、、

shell函数接受两个参数->，一个输入文件和一个输出文件。HDFS。目前，我首先使用fs.copyToLocalFile将所需的文件复制到本地硬盘，调用unix二进制文件，然后使用fs.copyFromLocalFile将output.txt写回HDFS。这种方法的问题是，它不是最优的，因为它涉及大量冗余的读取和写入HDD，这会降低性能。所以，我的问题是，如何直接读取HDFS文件作为输入，并将结果直接

浏览 1提问于2012-03-02得票数 0

回答已采纳

2回答

R+Hadoop:如何从HDFS读取CSV文件并执行mapreduce？

、、

cbind(v, v^2))"hdfs://172.16.1.58:8020/tmp/test_short.csv" 如何为它找到一个对象？据我所知(这可能是错误的)，如果我希望将CSV文件中的数据作为mapreduce的输

浏览 3提问于2013-08-07得票数 7

回答已采纳

6回答

在运行Cloudera提供的WordCount.java方面需要帮助

、、

root (auth:SIMPLE)not exist: hdfsException in thread "main"exist: hdfs

浏览 1提问于2012-08-12得票数 2

回答已采纳

2回答

什么时候在Hbase中使用MapReduce？

、

我想从应用程序的角度了解Hbase的MapReduce，需要一些它的实际用例来更好地理解编写这些作业的有效用例。如果有任何解释真实用例的文档或示例的链接，请分享。

浏览 1提问于2015-05-25得票数 0

2回答

将数据存储在hdfs中而不是消息队列中

、、

我正在尝试更改在应用程序中处理数据的方法。数据首先从数据库接收并存储在消息队列中。我希望直接将数据放在hdfs中。我不希望数据写入文件并转移到hdfs。从hdfs开始，我将处理数据并将结果放入HDFS。我可以通过Java程序将数据写入hdfs，而不是将复制命令交给HDFS吗？

浏览 6提问于2015-07-06得票数 0

1回答

将不同S3文件夹中的文件作为输入传递给mapreduce

、、、

如何将day=20上的所有日志作为映射减少程序的输入传递？

浏览 4提问于2014-08-25得票数 0

回答已采纳

1回答

将Hadoop MapReduce作业中的数据写入MySQL

、、

我一直在使用MapReduce解析日志文件，但是它总是输出一个名为"part-00000“的文本文件来存储我的结果，然后我必须手动将part--00000导入mysql。是否有一种简单的方法可以直接将MapReduce结果存储在MySQL中?例如，如何将经典的“单词计数”MapReduce程序的结果直接存储在MySQL中？我使用的是Hadoop1.2.1和mapred库(即org.apache.hadoop.mapred.*而不是org.ap

浏览 0提问于2015-08-17得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将EMR流作业的输出写入HDFS？

Hadoop看不到我的输入目录。

带有混合输出端点的Mapreduce作业: S3和HDFS

使用distcp或s3distcp将文件从S3复制到HDFS

Hadoop将文件从本地计算机上传到亚马逊s3

Hadoop >在Hadoop作业运行时，datanode和namenode进程是否正在运行

在MRJob中运行步骤之前，将S3数据加载到HDFS的具体语法示例是什么？

Hadoop输出到MongoDb

从Java执行Pig脚本时出错

在Hadoop MapReduce中，地图/合并和还原阶段之后的数据保存在哪里？

InvalidJobConfException:未设置输出目录

hadoop - Hadoop jar输入路径问题

Hadoop HDFS中块的概念

将文件直接从HDFS读入shell函数

R+Hadoop:如何从HDFS读取CSV文件并执行mapreduce？

在运行Cloudera提供的WordCount.java方面需要帮助

什么时候在Hbase中使用MapReduce？

将数据存储在hdfs中而不是消息队列中

将不同S3文件夹中的文件作为输入传递给mapreduce

将Hadoop MapReduce作业中的数据写入MySQL

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐