开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >用于将文件从HDFS复制到AWS S3的Hadoop服务器连接

问用于将文件从HDFS复制到AWS S3的Hadoop服务器连接
EN

Stack Overflow用户

提问于 2018-06-15 21:55:19

回答 1查看 416关注 0票数 0

要求是将hdfs文件从Hadoop集群(非亚马逊网络服务)复制到亚马逊网络服务S3存储桶，并使用独立的java应用程序安排每日CRON。将使用AmazonS3.copy copying ()方法进行复制。如何指定源Hadoop集群的kerberized服务器连接详细信息，以便S3client可以访问源hdfs文件夹中的文件。

下面的命令早些时候用过，但它不是安全的文件传输方式。

hadoop distcp -Dfs.s3a.access.key=<<>> -Dfs.s3a.secret.key=<<>> hdfs://nameservice1/test/test1/folder s3a://<>/test/test1/folder

amazon-web-services

EN

回答 1

Stack Overflow用户

发布于 2018-06-22 04:31:36

cronjob不能接近kerberos；您的cronjob必须使用密钥表之外的kinit对S3访问进行身份验证。

将秘密传递给distcp的最安全方法是将它们保存在集群FS中的JCEKS文件中，例如运行作业的用户的主目录中，权限仅供该用户读取(最大偏执:设置用于加密的密码并与作业一起传递)。请参阅Protecting S3 Credentials with Credential Providers

另一个技巧是:使用CLI命令创建会话凭证，并将临时凭证传递给assume role for s3a to pick up。这样的话，是的，这些秘密对.ps是可见的，但它们不是更持久的秘密。与用户的完整帐户相比，您还可以请求具有受限访问权限的特定角色(例如:仅对一个存储桶具有读/写访问权限)

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50883131

复制

相关文章

HDFS——如何将文件从HDFS复制到本地

node.js hadoop java http 编程算法

复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。

星哥玩云

2022/06/30

7K0

HDFS——如何将文件复制到HDFS

node.js 文件存储 java 大数据 hadoop

在Hadoop中用作文件操作的主类位于org.apache.hadoop.fs包中。基本的文件操作有open、read、write和close。实际上，Hadoop的文件API是通用的，可用于HDFS以外的文件系统。

星哥玩云

2022/06/30

2.1K0

将本地文件复制到Hadoop文件系统

java node.js 编程算法 hadoop 文件存储

//将本地文件复制到复制到Hadoop文件系统 //目前，其他Hadoop文件系统写入文件时均不调用progress()方法。 package com;

星哥玩云

2022/07/04

1.4K0

HDFS——如何将文件从HDFS上删除

node.js hadoop 大数据文件存储

import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class FileDelete { public static void main(String[] args) throws Exception { if(args.length != 1){ System.out.println("Usage filedelete <target>"); System.exit(1); } Configuration conf = new Configuration(); FileSystem hdfs = FileSystem.get(URI.create(args[0]),conf); hdfs.delete(new Path(args[0]),false); } }

星哥玩云

2022/06/30

3.5K0

Hadoop Mapper 阶段将数据直接从 HDFS 导入 Hbase

数据源格式如下： 20130512 1 -1 -1 13802 1 2013-05-12 07:26:22 20130512 1 -1 -1 13802 1 2013-05-12 11:18:24 我们期待的结果是数据直接从 hdfs 读取后写入 hbase，没有 reduce 阶段，代码如下： package WebsiteAnalysis; import java.io.IOException; import org.apache.hadoop.conf.Configuratio

用户1177713

2018/02/24

9410

将 Kudu 数据迁移到 CDP

spark 专用宿主机大数据迁移数据迁移

当您将 Kudu 数据从 CDH 迁移到 CDP 时，您必须使用 Kudu 备份工具来备份和恢复您的 Kudu 数据。

大数据杂货铺

2021/10/09

1.4K0

s3 aws 临时授权

https://docs.aws.amazon.com/zh_cn/AmazonS3/latest/userguide/AuthUsingTempSessionToken.html

周杰伦本人

2022/10/25

1.2K0

AWS S3 学习小结

https 网络安全编程算法

1.首先，这个是AWS的开发资源使用文档：AWS开发文档，AWS官网 – S3教程

全栈程序员站长

2022/11/03

1.8K0

Hadoop之HDFS文件操作

hadoop node.js 大数据 java api

摘要：Hadoop之HDFS文件操作常有两种方式，命令行方式和JavaAPI方式。本文介绍如何利用这两种方式对HDFS文件进行操作。关键词：HDFS文件命令行 Java API HDFS是一种分布式文件系统，为MapReduce这种框架下的海量数据分布式处理而设计。 Hadoop之HDFS文件操作常有两种方式，一种是命令行方式，即Hadoop提供了一套与Linux文件命令类似的命令行工具；另一种是JavaAPI，即利用Hadoop的Java库，采用编程的方式操作HDFS的文件。

星哥玩云

2022/07/01

4150

Hadoop之HDFS文件操作

CDH5.15和CM5.15的新功能

github https erp kerberos hadoop

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 Fayson在2018年的1月26日介绍了《CDH5.14和CM5.14的新功能》，今天6月15日，Cloudera正式发布了CDH5.15。从5.14到5.15，差不多等待了4个半月的时间，本次更新比以往晚了快2个月的时间。当然Cloudera在中间发布了CDH6的Beta版，参考《Cloudera En

Fayson

2018/07/12

2K0

盘点13种流行的数据处理工具

hadoop hive spark apache 开源

作者：所罗伯·斯里瓦斯塔瓦（Saurabh Shrivastava）、内拉贾利·斯里瓦斯塔夫（Neelanjali Srivastav）

IT阅读排行榜

2022/01/20

2.6K0

Facebook 如何将 Instagram 从 AWS 搬到自己的服务器

迁移 tcp/ip 私有网络

当Instagram在2012年加入Facebook，我们快速建立了大量的Facebook基础设施整合点，以加速产品开发，使社区更加安全。一开始我们通过使用ad-hoc端点在Facebook web服务之间有效传递来构建这些整合。不过我们发现这种方式可能稍显笨拙，还限制了我们使用内部的Facebook服务的能力。

星哥玩云

2022/07/03

1.2K0

Presto Hive连接器

hive 大数据存储 hadoop 缓存

Presto仅使用前两个组件：数据和元数据。它不使用HiveQL或Hive执行环境的任何一部分。

sparkle123

2020/10/29

2.2K0

AWS CPP S3访问COS

COS是完全兼容AWS S3的，项目中经常遇到客户直接使用AWS S3的相关SDK，来访问COS。

ictfox

2021/12/16

1.1K0

aws s3 java SDK使用[通俗易懂]

https java 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/179078.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/27

1.8K0

aws s3 java SDK使用[通俗易懂]

AWS S3 使用 travis 编译的时候提示错误 Aws::S3::Errors::PermanentRedirect

https 网络安全打包存储

这是因为在我们的配置文件下 travis 将会把数据存储到 S3 的 us-east-2 存储区。

HoneyMoose

2020/12/22

6330

AWS S3 使用 travis 编译的时候提示错误 Aws::S3::Errors::PermanentRedirect

hadoop HDFS常用文件操作命令

命令基本格式: hadoop fs -cmd < args > 1. ls　　列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls /dir hadoop fs -ls -R /di

互联网金融打杂

2018/04/13

1.1K0

hadoop HDFS常用文件操作命令

环球易购数据平台如何做到既提速又省钱？

hadoop 对象存储存储腾讯云测试服务编程算法

环球易购创建于 2007 年，致力于打造惠通全球的 B2C 跨境电商新零售生态，2014 年通过与百圆裤业并购完成上市，上市公司「跨境通（SZ002640）」是 A 股上市跨境电商第一股。经过多年的努力，在海外市场建立了广阔的销售网络，得到了美国、欧洲等多国客户的广泛认可，公司业务多年来一直保持着 100% 的增长速度。

Juicedata

2021/12/10

9660

环球易购数据平台如何做到既提速又省钱？

Hadoop源码分析：HDFS读取文件

hadoop 大数据 javascript

程裕强

2018/01/02

1.6K0

Hadoop HDFS 常用文件操作命令

命令基本格式: 1 hadoop fs -cmd < args > ---- ls 1 hadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件 1 hadoop fs -ls -R / 列出hdfs文件系统所有的目录和文件 ---- put 1 hadoop fs -put < local file > < hdfs file > hdfs file的父目录一定要存在，否则命令不会执行 1 hadoop fs -put < local file or dir >...< hdf

一份执着✘

2018/06/04

2.3K0

相似问题

hadoop将结果从hdfs复制到S3

20

将文件复制到HDFS Hadoop

20

Hadoop将本地文件复制到HDFS？

12

Hadoop Java -将文件从windows共享文件夹服务器复制到HDFS

13

如何以增量方式将文件从FTP服务器复制到Hadoop HDFS

10

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验