腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
Pyspark
中
的
HDFS
文件
存在
检查
、
有没有人能建议在
pyspark
中
检查
文件
存在
的
最好方法。 目前我正在使用下面的方法进行
检查
,请告知。
浏览 106
提问于2018-06-07
得票数 4
回答已采纳
2
回答
如何更改SparkContext.sparkUser()设置?
、
、
我是Spark和
pyspark
的
新手。 我使用rdd,经过
hdfs
处理后,我尝试使用saveAsTextfile()函数将其保存到
hdfs
中
。但是我得到了一条‘权限被拒绝
的
’错误消息,因为
pyspark
试图使用我
的
本地帐户'kjlee‘编写
hdfs
,而
hdfs
系统上并不
存在
这个帐户。我可以通过SparkContext().sparkUser()
检查
星火用户名,但是我找不到
浏览 2
提问于2015-09-30
得票数 10
回答已采纳
1
回答
如何在
Pyspark
中
创建虚拟(0字节)
HDFS
文件
、
、
、
我正在寻找一个python实用程序,它可以让我在
HDFS
上动态创建一个虚拟
文件
,而不会接触到本地
文件
系统。专家们,我有一个简单
的
要求,我需要用
Pyspark
代码在
HDFS
中
创建一个虚拟(0字节)
文件
。基本上,我正在
检查
HDFS
上是否
存在
x.lock (0字节)
文件
,如果
存在
,这意味着我需要等待其他进程(创建它)完成并删除它。如果它不
存在
,我<em
浏览 12
提问于2019-06-25
得票数 1
回答已采纳
3
回答
pyspark
:如何
检查
hdfs
中
是否
存在
文件
、
、
、
、
在通过SparkContext加载
文件
之前,我想
检查
hdfs
中
是否
存在
几个
文件
。我用
的
是火花源。我尝试过os.system("hadoop fs -test -e %s" %path),但是因为我有很多路径要
检查
,所以作业崩溃了。但它也崩溃了,因为parent_path包含很多子路径和
文件
。你能帮我一下吗?
浏览 12
提问于2015-09-01
得票数 8
1
回答
PySpark
无法将
文件
从本地移动到
HDFS
、
、
我正在本地8020端口
的
机器上运行hadoop。我
的
名字节点
存在
于path /usr/local/Cellar/hadoop/
hdfs
/tmp/dfs/name下。我已经使用Conda安装了一个
pySpark
项目,并安装了
pyspark
和
hdfs
3依赖项。以下是我
的
代码:from
浏览 2
提问于2021-06-25
得票数 1
回答已采纳
2
回答
Spark无效
的
检查
点目录
、
我在我
的
程序中有一个长时间
的
迭代,我想每隔几次迭代就缓存和
检查
点(这个技术被建议用来减少web上
的
长历史),所以我不会有StackOverflowError,通过这样做 //and perform a transformation我像这样设置了
检查
点目录val sc = new SparkContext(conf) sc
浏览 2
提问于2015-09-05
得票数 2
回答已采纳
1
回答
Pyspark
:
hdfs
中
没有这样
的
文件
或目录
、
、
、
我正在尝试使用
pyspark
解析xml
文件
。我
的
文件
存在
于
HDFS
中
。我已经在下面编写了我
的
代码,但是当我执行它时,它无法识别位置。请帮忙-下面是我
的
代码import xml.etree.ElementTree as ETdef(filename, content): filenam
浏览 1
提问于2017-08-30
得票数 0
回答已采纳
1
回答
为什么我
的
GCP脚本/笔记本找不到我
的
文件
?
、
我尝试了三种方法:上传包含wget命令
的
.ipynb
文件
。这没有错误地下载
文件
,但我不确定它保存到哪里,脚本也找不到该
文件
(我假设是因为我告诉它该
文件
位于同一个目录
中
,并且在默认情况下使用wget在GCP上将它保
存在
其他地方)。带桶
的
PySpark
: 我做
的
与上面的
PySpark
笔记本相同,但首先我将数据集上传到存储桶
中
,然后在控制台上单
浏览 0
提问于2021-04-30
得票数 0
1
回答
Apache Tika无法解析
HDFS
文件
、
、
、
我正在使用Tika库来解析存储在Hadoop集群
中
的
文档。我使用
的
代码如下:import urllib3在linux上,如果我给出一个本地路径,tika可以解析,但是对于
hdfs
路径,我得到一个 Spark I/O error:
浏览 0
提问于2018-03-13
得票数 1
1
回答
如何访问安装在
hdfs
头节点群集中
的
pyspark
、
、
、
、
我有一个由hadoop集群组成
的
头节点,我看到
pyspark
安装在
hdfs
集群
中
,即我可以在
hdfs
user.But内使用
pyspark
shell,用户头节点没有安装
pyspark
。因此,我无法访问
hdfs
中
的
文件
并将其带到jupyter笔记本
中
我是否可以使用jupyter笔记本
中
hdfs
中
的
pys
浏览 45
提问于2019-01-22
得票数 0
8
回答
apache spark -
检查
文件
是否
存在
、
、
我是spark
的
新手,我有一个问题。我有一个两步
的
过程,第一步是将一个SUCCESS.txt
文件
写到
HDFS
上
的
一个位置。我
的
第二步是spark作业,它必须在开始处理数据之前验证该SUCCESS.txt
文件
是否
存在
。 我
检查
了spark API,但没有找到任何
检查
文件
是否
存在
的
方法。你知道怎么处理这件事吗?我找到
的
唯一方法是sc.textFile
浏览 8
提问于2015-05-23
得票数 31
6
回答
火花Python提交错误:
文件
不
存在
:
pyspark
.zip
、
、
我在跟踪错误, 诊断:
文件
不
存在
:
hdfs
://xxxxxx:8020/user/
hdfs
/.sparkStaging/application_123456789_0138/
pyspark
.zipjava.io.FileNotFoundException: java.io.FileNotFoundException: File不
存在
:
hdfs
://xxxxxx:8020
浏览 3
提问于2016-01-06
得票数 2
1
回答
当使用addFile时,我得到了java.io.FileNotFoundException。
我遇到了一个困惑
的
问题,我想上传一个
hdfs
文件
到所有星火workers.The代码如下:import osfrom
pyspark
.sql import Row import jieba.posseg as posseg但是它得到了一个类似于"java.io.FileNotFound
浏览 0
提问于2018-08-20
得票数 2
回答已采纳
1
回答
用
PySpark
读取Cloudera项目中
的
文件
、
、
、
我
的
Cloudera项目中有一个
文件
位于"/home/cdsw/npi.json“之下。我尝试使用以下命令从我
的
“本地”CDSW项目中读取
PySpark
,但无法使用以下任何命令。它们都抛出"Path不
存在
:“错误。
浏览 2
提问于2018-10-30
得票数 0
回答已采纳
1
回答
Azure数据砖块:如何读取部分
文件
并将其保存为一个blob
文件
?
、
、
、
、
我正在使用将数据帧写入blob
中
的
一个
文件
夹,该
文件
夹被保存为部分
文件
:
文件
保存为:#Read Part files path = glob.glob("/dbfs/mnt/path/DataMode
浏览 4
提问于2019-11-20
得票数 1
2
回答
将数据保存到
HDFS
的
格式是什么?
、
、
、
在dataframe或rdd
中
是否有其他格式可用于在Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
2
回答
Pyspark
:如何根据日期获取特定
的
文件
,以便从
文件
列表中加载到数据
文件
中
、
、
、
我试图从一组
文件
中加载一个特定
的
文件
。 示例:我有这种格式
的
app_name_date.csv格式
的
hdfs
文件
,在目录中有100个这样
的
文件
。我想根据日期将csv
文件
加载到dataframe
中
。spark.read.csv("
hdfs
://XXXXX/app/app_name_+$currentdate+.csv") =
浏览 8
提问于2022-03-02
得票数 0
1
回答
PySpark
:将字典python输出转换为RDD /或其他可保存(
HDFS
)格式
、
、
、
、
我是Spark /
Pyspark
/
HDFS
的
新手,我正在尝试用以下代码直接从
HDFS
加载一个.json
文件
:dictionary_output.sav
浏览 2
提问于2017-05-16
得票数 1
2
回答
Hadoop火星车码头群火星之火给BlockMissingException但是
文件
很好
、
、
、
、
使用Hue,我将一个
文件
上传到
hdfs
,从hue或namenode
的
hdfs
中下载或查看该
文件
没有问题。没有遗漏块,
文件
检查
显示一切都很好。但是,当我试图使用jupyter
中
的
pyspark
访问它时,我得到了一个: BP-296583215-10.0.0.6-1542473394293:blk_1073741833_1009
文件
=/20170930使用python2内核
的</em
浏览 0
提问于2018-11-18
得票数 2
回答已采纳
1
回答
如何解析
pyspark
中
的
html
文件
并使用Beautifulsoup?
、
、
、
、
我遇到了一个非常困难
的
情况:我需要解析
中
的
一堆html
文件
,但是我仍然希望使用BeautifulSoup来解析html
文件
。目前
的
困境是: 如果我将
浏览 0
提问于2017-10-23
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在shell中如何判断HDFS中的文件目录是否存在
使用git中钩子文件做代码提交前的检查
如何在CDH集群上部署Python3运行环境及运行Python作业
Python Spark安装及配置步骤
0483-如何指定PySpark的Python运行环境
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券