腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
job
spark
测量
hdfs
上
的
读写
时间
?
、
、
、
、
我刚刚开始大数据平台
的
鉴定工作,我想就
如何
在
hdfs
上
测试
读写
性能提出建议。
浏览 11
提问于2019-05-15
得票数 0
1
回答
如何
将现有的增量表注册为单元
、
、
、
、
我们
使用
spark
以
HDFS
存储
的
delta格式
读写
数据(Databricks Delta表版本0.5.0)。请注意,目前我们正在cloudera平台上运行
spark
(2.4.0) (CDH 6.3.3)
浏览 1
提问于2021-10-27
得票数 1
1
回答
如何
有效地更新文件被频繁修改
的
Impala表
、
、
、
在
HDFS
中编写这些文件
的
过程是
Spark
结构化流(2.3.1) 因此,我
的
问题
浏览 2
提问于2020-02-06
得票数 12
2
回答
使用
Livy执行
Spark
作业,
使用
`--master yarn-cluster`而不进行系统范围
的
更改
、
我想
使用
从集群外部通过HTTP调用来执行
Spark
作业,其中
Spark
jar已经存在于
HDFS
中。我可以从集群节点
上
的
shell中
spark
-submit该作业,例如:
spark
-submit --class io.woolford.Main --master yarn-cluster
hdfs
://hadoop01:8020/path/to/
spark
-
浏览 1
提问于2016-11-30
得票数 2
1
回答
阅读Cassandra和Cloudera Hadoop中
的
Spark
、
、
、
作用域是从
HDFS
读取,过滤
Spark
,并将结果写入Cassandra。我正在打包并运行SBT。但是,对Cassandra
的
读写
是通过 valcasRdd =
浏览 0
提问于2014-01-13
得票数 2
1
回答
在hadoop文件系统
上
使用
pyspark
读写
2D图像
、
、
、
我希望能够在
hdfs
文件系统
上
读写
图像,并利用
hdfs
本地性。 作为xml文件存储
的
基本附加信息。我想在
hdfs
文件系统
上
创建一个归档文件,并
使用
spark
来分析归档文件。现在,为了能够充分利用
spark
+
hdfs
结构,我很难找到在
hdfs
文件系统
上
存储数据
的
最佳方法。据我所知,最好<e
浏览 0
提问于2015-02-25
得票数 7
1
回答
星星团- hadoop
上
的
读/写
、
、
、
我想从hadoop读取数据,在火花上进行处理,并在hadoop和弹性搜索
上
提取结果。我几乎没有工作节点来做这件事。 星星之火独立集群是否足够?还是我需要使hadoop集群
使用
纱线或mesos?如果独立集群模式足够,是否应该在所有节点
上
设置jar文件,而不是纱线、mesos模式?
浏览 1
提问于2017-02-21
得票数 2
回答已采纳
1
回答
如何
以Dataproc作业
的
形式运行未编译
的
Scala/shell代码?
、
、
通常情况下,如果我将Scala用于
Spark
作业,我将编译一个jarfile并
使用
gcloud dataproc jobs submit
spark
提交它,但有时对于非常轻量级
的
作业,我可能在笔记本中
使用
未编译
的
Scala代码,或者
使用
spark
-shell REPL,在这里我假设SparkContext已经可用。对于其中
的
一些轻量级用例,我可以等效地
使用
PySpark并与gcloud dataproc jobs s
浏览 2
提问于2020-03-08
得票数 5
回答已采纳
1
回答
Spark
结构化流运行过程中Presto
的
"not a Parquet file (太小)“
、
、
、
、
我有一个管道设置,从Kafka读取数据,
使用
Spark
结构化流处理数据,然后将拼花文件写入
HDFS
。数据查询
的
下游客户端
使用
Presto配置,以便将数据作为Hive表读取。Kafka -->
Spark
--> Parquet on
HDFS
--> Presto 一般来说,这是可行
的
。当
Spark
作业运行批处理时发生查询时,就会出现问题。星火作业在
HDFS
上
创建一个零长度
浏览 3
提问于2017-11-16
得票数 1
回答已采纳
1
回答
无法
使用
oozie运行示例火花作业
、
、
、
我正在尝试在CDH5.7集群
上
安装oozie。我通过cloudera文档中
的
步骤安装和配置了所有东西。在src文件系统
上
更改(预期为1462196523983,为1462196524951 ) oozie
job
-config /usr/share/doc/oozie/examples/apps/
spark
/
job
.properties -run
J
浏览 0
提问于2016-05-02
得票数 1
1
回答
火星城有什么办法保持每个阶段
的
运行
时间
吗?
、
、
我正在
测量
一个不同资源配置
的
火花作业
的
运行
时间
,并需要比较每个阶段
的
运行
时间
。只有在作业运行时,我才能在UI中看到它们。我在Hadoop集群
上
运行我
的
工作,并
使用
Yarn作为资源管理器。有什么办法保持每一阶段
的
运行
时间
吗?有他们
的
原木吗?更新:在
spark
-defaults.conf
浏览 1
提问于2019-07-25
得票数 0
回答已采纳
1
回答
在
Spark
程序中访问Oozie配置
、
、
我正在尝试
使用
Scala中
的
sys.env()方法通过
Spark
程序访问它。当我没有Oozie调度时,我能够正确地访问
Spark
中
的
环境变量。然而,当我尝试
使用
Oozie调度我
的
程序时,程序抛出一个错误,它无法读取环境变量。<start to='
spark
-node' /> <
浏览 1
提问于2020-01-14
得票数 0
3
回答
Oozie火花放电作业
、
、
、
我
的
工作流程很简单。xmlns="uri:oozie:
spark
-action:0.1"> <name-node
上
,与workflow.xml位于同一个文件夹中。文件夹-chmod 777和我
的
本地文件夹设置为chmod 777,我
使用
的
是火花1.6。当我通过submit运行
浏览 7
提问于2017-07-25
得票数 1
回答已采纳
2
回答
在
spark
submit中将
hdfs
路径作为环境变量传递
、
、
、
我正在尝试
使用
spark
submit在yarn集群
上
运行我
的
spark
程序,我正在读取一个放在
hdfs
中
的
外部配置文件,我正在运行作业- ./
spark
-submit --class com.sample.samplepack.AnalyticsBatch --master yarn-cluster --num-executors 3 --://namenode:8020/tmp/some.conf&
浏览 2
提问于2015-04-15
得票数 1
1
回答
如何
修复‘scala.collection.immutable.$colon$colon.hd$1()Ljava/lang/Object’:java.lang.NoSuchMethodError‘
、
、
因此,我开始编写自己
的
Oozie工作流,其中包含Apache操作,事情是,尽管我清楚地
使用
Scala2.11.8和
Spark
2.3.0打包了我
的
源代码,但这条消息说 有一个包含Hortonworks沙箱
的
码头容器,运行在ec2机器
上
我已经
使用
命令行更新了Oozie共
浏览 12
提问于2019-10-18
得票数 1
1
回答
Spark
CTAS
上
的
配置单元
使用
直接SELECT失败,但
使用
SELECT GROUP BY成功
、
、
我已经在
Spark
上成功地
使用
了Hive几个星期,执行了包含聚合数据
的
CTAS语句。最近,我需要
使用
一个直接
的
select语句(没有GROUP BY)来执行一个CTAS,但令人惊讶
的
是它失败了。我发现我可以在MR
上
用Hive执行语句。我已经创建了一个测试来隔离我
的
问题。文件(
使用
SELECT GROUP BY)...this完成得很好: cat > testhiveonspark_working.hql << EOF
浏览 5
提问于2016-11-13
得票数 1
2
回答
利用
Spark
/Scala在
HDFS
文件中实现迭代写入
、
、
我正在学习
如何
使用
Spark
/Scala对
HDFS
中
的
文件进行
读写
。我无法写入
HDFS
文件,文件已创建,但它是空
的
。我不知道
如何
创建一个用于在文件中写入
的
循环。代码是:import org.apache.
spark
.SparkConf import org.apache.
spark
.SparkC
浏览 1
提问于2017-06-15
得票数 1
2
回答
当
使用
oozie火花操作时,在一个节点
上
生成
的
火花驱动程序可以找到自定义
的
log4j配置文件,但在其他节点
上
却找不到。为什么?
、
、
、
使用
oozie运行火花动作工作流有问题。如果驱动程序是在节点(172.12.0.27)
上
生成
的
,则日志配置是始终正确
的
。如果驱动程序在其他节点
上
生成(172.12.0.18,172.12.0.20),则日志配置总是错误
的
。我怎么才能追踪问题?如果
使用
submit与自定义log4j配置文件,则任何节点
上
都没有问题.像下面这样<e
浏览 1
提问于2019-08-26
得票数 0
1
回答
用工人
的
帮助从星火中阅读巨大
的
MongoDB藏品
、
、
、
我想阅读一个来自
Spark
的
庞大
的
MongoDB集合,创建一个持久
的
RDD并对其进行进一步
的
数据分析。我是否可以
使用
工作者/从器并行地从MongoDB读取数据,然后将其保存为持久数据并
使用
它。
浏览 3
提问于2015-09-09
得票数 2
回答已采纳
1
回答
如何
根据
HDFS
中
的
数据创建外部星表
、
我已经将
HDFS
中
的
一个拼花表加载到一个DataFrame中:现在我想将这个表公开给
Spark
,但是这必须是一个持之以恒
的
表,因为我想通过JDBC连接或其他Sessions来访问它。快速
的
方法可以是调用df.write.saveAsTable方法,但在这种情况下,它将实现DataFrame
浏览 1
提问于2018-04-26
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在万亿级别规模的数据量上使用 Spark?
如何在万亿级别规模的数据量上使用Spark
从 Hadoop 到云原生(2):Kyligence 在云原生巨浪中的思考
大数据开发之用CombineFileInputFormat优化Hadoop小文件
大规模集群故障处理,能抗住这3个灵魂拷问算你赢
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券