首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >Hadoop/Python:加载要在映射程序中使用的引用文件

Hadoop/Python:加载要在映射程序中使用的引用文件
EN

Stack Overflow用户
提问于 2014-10-21 23:17:30
回答 1查看 310关注 0票数 0

我想用Hadoop在Python中处理CSV文件,但是我需要引用另一个包含查找信息的文件。

我读到我可以使用-files命令行选项来创建指向本地文件的符号链接,但是如何在Python文件中引用这个文件呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-10-27 19:34:05

在Amazon中创建此作业之后,我可以将该文件复制到S3,并使用-cacheFile选项直接引用它:

代码语言:javascript
运行
复制
bin/hadoop ... -cacheFile s3://my-bucket/files/cachefile.csv#reference

在Python中,我可以打开这个文件:

代码语言:javascript
运行
复制
with open("reference") as reference_file:
    references = reference_file.read().splitlines()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26497983

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档