我正在开发一个spark java包装器,它使用第三方库,它将从作业执行的硬编码目录名中读取文件,例如"resdata“。我知道这是扭曲的,但我会努力解释。当我执行作业时,它试图在下面这样的路径中查找所需的文件,我假设它在当前数据目录中查找文件,在该目录下查找名称为“/data/Hadoop/yarn/local//appcache/application_xxxxx_xxx/container_00_xxxxx_xxx/resdata”的目录。在这一点上,我不知道如何将当前目录配置为hdfs或本地的任何路径。因此,寻找选项来创建类似于第三方库期望的目录结构,并将所需的文件复制到那里。我需要在每个节点上执行此操作。我正在从事spark 2.2.0的工作,请帮助我实现这一点?
发布于 2018-08-17 12:50:13
刚才我得到了答案,我需要把所有的文件放在resdata目录下并压缩,比如归档,使用“-- restdata.zip”选项传递文件。然后,每个节点将具有目录restdata.zip/restdata/file1等
https://stackoverflow.com/questions/51888066
复制相似问题