我想用Hadoop在Python中处理CSV文件,但是我需要引用另一个包含查找信息的文件。
我读到我可以使用-files命令行选项来创建指向本地文件的符号链接,但是如何在Python文件中引用这个文件呢?
发布于 2014-10-27 11:34:05
在Amazon中创建此作业之后,我可以将该文件复制到S3,并使用-cacheFile
选项直接引用它:
bin/hadoop ... -cacheFile s3://my-bucket/files/cachefile.csv#reference
在Python中,我可以打开这个文件:
with open("reference") as reference_file:
references = reference_file.read().splitlines()
https://stackoverflow.com/questions/26497983
复制相似问题