首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >用于将文件从HDFS复制到AWS S3的Hadoop服务器连接

用于将文件从HDFS复制到AWS S3的Hadoop服务器连接
EN

Stack Overflow用户
提问于 2018-06-15 21:55:19
回答 1查看 416关注 0票数 0

要求是将hdfs文件从Hadoop集群(非亚马逊网络服务)复制到亚马逊网络服务S3存储桶,并使用独立的java应用程序安排每日CRON。将使用AmazonS3.copy copying ()方法进行复制。如何指定源Hadoop集群的kerberized服务器连接详细信息,以便S3client可以访问源hdfs文件夹中的文件。

下面的命令早些时候用过,但它不是安全的文件传输方式。

hadoop distcp -Dfs.s3a.access.key=<<>> -Dfs.s3a.secret.key=<<>> hdfs://nameservice1/test/test1/folder s3a://<>/test/test1/folder

EN

回答 1

Stack Overflow用户

发布于 2018-06-22 04:31:36

cronjob不能接近kerberos;您的cronjob必须使用密钥表之外的kinit对S3访问进行身份验证。

将秘密传递给distcp的最安全方法是将它们保存在集群FS中的JCEKS文件中,例如运行作业的用户的主目录中,权限仅供该用户读取(最大偏执:设置用于加密的密码并与作业一起传递)。请参阅Protecting S3 Credentials with Credential Providers

另一个技巧是:使用CLI命令创建会话凭证,并将临时凭证传递给assume role for s3a to pick up。这样的话,是的,这些秘密对.ps是可见的,但它们不是更持久的秘密。与用户的完整帐户相比,您还可以请求具有受限访问权限的特定角色(例如:仅对一个存储桶具有读/写访问权限)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50883131

复制
相关文章
HDFS——如何将文件从HDFS复制到本地
复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。
星哥玩云
2022/06/30
7K0
HDFS——如何将文件复制到HDFS
在Hadoop中用作文件操作的主类位于org.apache.hadoop.fs包中。基本的文件操作有open、read、write和close。实际上,Hadoop的文件API是通用的,可用于HDFS以外的文件系统。
星哥玩云
2022/06/30
2.1K0
将本地文件复制到Hadoop文件系统
//将本地文件复制到复制到Hadoop文件系统 //目前,其他Hadoop文件系统写入文件时均不调用progress()方法。 package com;
星哥玩云
2022/07/04
1.4K0
HDFS——如何将文件从HDFS上删除
import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class FileDelete {  public static void main(String[] args) throws Exception  {   if(args.length != 1){   System.out.println("Usage filedelete <target>");   System.exit(1);   }   Configuration conf = new Configuration();   FileSystem hdfs = FileSystem.get(URI.create(args[0]),conf);   hdfs.delete(new Path(args[0]),false);  } }
星哥玩云
2022/06/30
3.5K0
Hadoop Mapper 阶段将数据直接从 HDFS 导入 Hbase
数据源格式如下: 20130512 1 -1 -1 13802 1 2013-05-12 07:26:22 20130512 1 -1 -1 13802 1 2013-05-12 11:18:24 我们期待的结果是数据直接从 hdfs 读取后 写入 hbase,没有 reduce 阶段, 代码如下: package WebsiteAnalysis; import java.io.IOException; import org.apache.hadoop.conf.Configuratio
用户1177713
2018/02/24
9410
将 Kudu 数据迁移到 CDP
当您将 Kudu 数据从 CDH 迁移到 CDP 时,您必须使用 Kudu 备份工具来备份和恢复您的 Kudu 数据。
大数据杂货铺
2021/10/09
1.4K0
s3 aws 临时授权
https://docs.aws.amazon.com/zh_cn/AmazonS3/latest/userguide/AuthUsingTempSessionToken.html
周杰伦本人
2022/10/25
1.2K0
AWS S3 学习小结
1.首先,这个是AWS的开发资源使用文档:AWS开发文档,AWS官网 – S3教程
全栈程序员站长
2022/11/03
1.8K0
Hadoop之HDFS文件操作
摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式。本文介绍如何利用这两种方式对HDFS文件进行操作。 关键词:HDFS文件    命令行    Java API HDFS是一种分布式文件系统,为MapReduce这种框架下的海量数据分布式处理而设计。 Hadoop之HDFS文件操作常有两种方式,一种是命令行方式,即Hadoop提供了一套与Linux文件命令类似的命令行工具;另一种是JavaAPI,即利用Hadoop的Java库,采用编程的方式操作HDFS的文件。
星哥玩云
2022/07/01
4150
Hadoop之HDFS文件操作
CDH5.15和CM5.15的新功能
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 Fayson在2018年的1月26日介绍了《CDH5.14和CM5.14的新功能》,今天6月15日,Cloudera正式发布了CDH5.15。从5.14到5.15,差不多等待了4个半月的时间,本次更新比以往晚了快2个月的时间。当然Cloudera在中间发布了CDH6的Beta版,参考《Cloudera En
Fayson
2018/07/12
2K0
盘点13种流行的数据处理工具
作者:所罗伯·斯里瓦斯塔瓦(Saurabh Shrivastava)、内拉贾利·斯里瓦斯塔夫(Neelanjali Srivastav)
IT阅读排行榜
2022/01/20
2.6K0
盘点13种流行的数据处理工具
Facebook 如何将 Instagram 从 AWS 搬到自己的服务器
当Instagram在2012年加入Facebook,我们快速建立了大量的Facebook基础设施整合点,以加速产品开发,使社区更加安全。一开始我们通过使用ad-hoc端点在Facebook web服务之间有效传递来构建这些整合。不过我们发现这种方式可能稍显笨拙,还限制了我们使用内部的Facebook服务的能力。
星哥玩云
2022/07/03
1.2K0
Presto Hive连接器
Presto仅使用前两个组件:数据和元数据。它不使用HiveQL或Hive执行环境的任何一部分。
sparkle123
2020/10/29
2.2K0
Presto Hive连接器
AWS CPP S3访问COS
COS是完全兼容AWS S3的,项目中经常遇到客户直接使用AWS S3的相关SDK,来访问COS。
ictfox
2021/12/16
1.1K0
aws s3 java SDK使用[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/179078.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/27
1.8K0
aws s3 java SDK使用[通俗易懂]
AWS S3 使用 travis 编译的时候提示错误 Aws::S3::Errors::PermanentRedirect
这是因为在我们的配置文件下 travis 将会把数据存储到 S3 的 us-east-2 存储区。
HoneyMoose
2020/12/22
6330
AWS S3 使用 travis 编译的时候提示错误 Aws::S3::Errors::PermanentRedirect
hadoop HDFS常用文件操作命令
命令基本格式: hadoop fs -cmd < args > 1. ls  列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls /dir hadoop fs -ls -R /di
互联网金融打杂
2018/04/13
1.1K0
hadoop HDFS常用文件操作命令
环球易购数据平台如何做到既提速又省钱?
环球易购创建于 2007 年,致力于打造惠通全球的 B2C 跨境电商新零售生态,2014 年通过与百圆裤业并购完成上市,上市公司「跨境通(SZ002640)」是 A 股上市跨境电商第一股。经过多年的努力,在海外市场建立了广阔的销售网络,得到了美国、欧洲等多国客户的广泛认可,公司业务多年来一直保持着 100% 的增长速度。
Juicedata
2021/12/10
9660
环球易购数据平台如何做到既提速又省钱?
Hadoop源码分析:HDFS读取文件
程裕强
2018/01/02
1.6K0
Hadoop HDFS 常用文件操作命令
命令基本格式: 1 hadoop fs -cmd < args > ---- ls 1 hadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件 1 hadoop fs -ls -R / 列出hdfs文件系统所有的目录和文件 ---- put 1 hadoop fs -put < local file > < hdfs file > hdfs file的父目录一定要存在,否则命令不会执行 1 hadoop fs -put < local file or dir >...< hdf
一份执着✘
2018/06/04
2.3K0

相似问题

hadoop将结果从hdfs复制到S3

20

将文件复制到HDFS Hadoop

20

Hadoop将本地文件复制到HDFS?

12

Hadoop Java -将文件从windows共享文件夹服务器复制到HDFS

13

如何以增量方式将文件从FTP服务器复制到Hadoop HDFS

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文