腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
查看
Spark
Streaming
应用
的
逻辑
和
物理
规划
?
、
、
我正在寻找一种在
Spark
中打印流媒体
应用
程序
的
执行计划
的
方法。我知道这是可能
的
print the plan of a SQL
Spark
application。但是,我想展示流
应用
程序
的
逻辑
和
物理
计划。下面是我
的
应用
程序: package org.sense.
spark
.app import org.apache.
spark</em
浏览 11
提问于2019-09-30
得票数 0
回答已采纳
1
回答
这两种连接两种数据格式
的
方法有什么区别?
、
、
这两种连接两种数据格式
的
方法有什么区别? 在数据文件中使用"createOrReplaceTempView“,并使用sparkSession.sql()。
浏览 0
提问于2018-12-17
得票数 2
回答已采纳
2
回答
使用
Spark
Streaming
定期保存计算结果?
、
、
我刚刚开始探索
Spark
/
Spark
Streaming
,我看到我们可以使用
Spark
Integration进行实时计算,并将其提供给UI Dashboard。我
的
问题是,如果在
Spark
Integration作业启动后
的
任何时候,它被停止/或崩溃,当它出现时,它将
如何
从上次处理
的
位置恢复。据我所知,
Spark
维护着一个内部状态,我们会为我们收到
的
每一个新数据更新这个状态。但
浏览 0
提问于2017-08-01
得票数 0
1
回答
queryExecution在火花数据中
的
用途是什么?
、
我必须了解数据对象上名为queryExecution
的
变量,并在控制台
的
输出下面找到它。但是它不确定
如何
帮助.Please在控制台中找到输出。scala> df.queryExecution== Parsed Logical Plan
浏览 6
提问于2017-01-18
得票数 6
回答已采纳
2
回答
过滤器与Hive where子句
、
、
、
我只是想知道这个火花密码就像这个一样有效率:在第一组中,我们是将所有的单元数据加载到RAM中,还是足够聪明地在执行生成
的
DAG时过滤蜂巢中
的
这些值
浏览 2
提问于2020-08-28
得票数 0
回答已采纳
3
回答
如何
将火花结构流DataFrame插入到Hive外部表/位置?
、
、
一个关于星火结构流与HIVE表集成
的
查询。 val
spark
=SparkSession.builder().appName("StatsAnalyzer") .confighive.exec.dynamic.partition", "true") .config("hive.exec.dynamic.partition.mode"
浏览 0
提问于2018-12-28
得票数 13
3
回答
持续信息JobScheduler:59 -在我
的
Spark
独立集群中添加作业时间*毫秒
、
、
我们正在使用具有8核
和
32 We
的
Spark
独立集群,具有相同配置
的
3个节点集群。 有时批处理流在不到1秒
的
时间内完成。在某些情况下,控制台中会出现以下日志,该时间超过10秒。
浏览 0
提问于2016-03-29
得票数 3
1
回答
面向1000+主题
的
火花流设计
、
、
我必须用下面的用例设计一个火花流
应用
程序。我正在寻找最好
的
方法来解决这个问题。Input Type 2 Topic -->
Spark
Streaming
按主题启动1000+火花流
应用</
浏览 2
提问于2017-06-13
得票数 2
1
回答
使用apache
spark
或flink
的
基于S3
的
流媒体解决方案
、
、
、
、
目前,我们有一个批处理
应用
程序,它每小时运行一次,处理这些文件。 企业希望数据每5分钟可用一次。取而代之
的
是,我们决定使用apache
spark
结构化流式处理,并实时处理数据,而不是每5分钟运行一次批处理作业。我
的
问题是,这个解决方案
的
生产有多容易/多难?我唯一担心
的
是,如果检查点位置损坏,删除检查点目录将重新处理过去1年
的
数据。有没有人使用s3
的
spark
structured来生产任何解决方案,或者你认为flink更适
浏览 27
提问于2019-06-29
得票数 0
回答已采纳
1
回答
Spark
Streaming
job
如何
在Kafka主题上发送数据并保存在Elastic中
、
、
、
、
我正在做一个数据分析项目,在这个项目中,我从CSV文件中读取数据,在Kafka主题上遍历该文件,并使用
Spark
Streaming
来使用该Kafka主题数据。我在一个单一
的
项目中使用
的
所有组件。所以我从
Spark
Streaming
开始做这些事情(将数据保存到elastic中,并将数据发送到topic)。,即在Elastic Search中保存数据,然后从
Spark
Streaming
中将其发送到主题中?2)我在一个项目中使用app组件(Kafka,
浏览 0
提问于2019-06-04
得票数 0
1
回答
实例化AbstractMethodError异常时JavaStreamingContext异常
、
我
的
依赖指数如下;找不到线索,谁能建议这里出了什么问题吗? <dependency> <-- https://mvnrepository.com/artifact/org.apache
浏览 0
提问于2019-01-11
得票数 1
回答已采纳
1
回答
需要类似于ProC
的
东西来实现嵌入式CQL
、
、
我们正在将
应用
程序从SQL迁移到CQL。我们使用嵌入式C++来执行查询。有没有人能推荐一些类似于CQL
的
Pro C
浏览 2
提问于2015-04-21
得票数 0
2
回答
火花流吞吐量监测
、
、
、
、
是否有一种方法可以监视
Spark
集群
的
输入
和
输出吞吐量,以确保群集不会被传入
的
数据淹没
和
溢出?在我
的
例子中,我在AWS EC2上设置了
Spark
集群,因此我考虑使用AWS CloudWatch来监视集群中每个节点
的
NetworkIn
和
NetworkOut。但我
的
想法似乎是不准确
的
,网络并不意味着只有星火
的
输入数据,也许还会有其他一些数据也会被计算出来。 是否有一种工具或方法专门监视
浏览 3
提问于2015-05-01
得票数 8
回答已采纳
1
回答
在Dataset元素中执行“不转换”操作
的
最佳方法是什么?
、
、
、
新来
的
火花,我正在寻找一种方式,以执行所有元素
的
数据集与星火结构化流我得到了val df = Dataset[Person],我想做这样
的
事情: df.foreachsomeHttpClient.doRequest(httpPostRequest(p.asSt
浏览 0
提问于2020-08-19
得票数 0
1
回答
火花过滤器操作顺序为O(1)或O(n)
、
、
我试图理解火花
的
概念,但只是在某一点上感到困惑,我想知道
spark
.filter是O(n)还是O(1),如果我先对数据进行排序,然后进行过滤,它是否会对顺序复杂性产生任何影响。因此,我们会尽量详细解释:-Case 1 :
Spark
.filter(id.equals(3)) Case 2 :
Spark
.sortBy(id).filter
浏览 0
提问于2018-10-09
得票数 1
回答已采纳
5
回答
spark
流可视化
、
、
我正在使用
spark
streaming
从kafka broker中流式传输数据。我正在使用
spark
streaming
对数据执行转换。有没有人能推荐一个可视化工具,我可以用它来显示实时
的
图形
和
图表,这些图表会随着数据流
的
更新而更新?
浏览 0
提问于2015-05-15
得票数 3
1
回答
即使列不在dataframe中,星火仍在向下推倒过滤器。
、
我有一个包含列
的
DataFrame:我选择它是为了我只保留field1, field2在那之后,我有一个使用field5
的
过滤器,我希望它会抛出一个分析错误,因为列不在那里,而是过滤原始
的
DataFrame (在select之前),因为它正在按压过滤器,如下所示: == Parsed Logical如您所见,
物理
计划在项目之前有过滤器.这是预期
的
行为吗?我希望有一个分析例外.这个问题<
浏览 2
提问于2021-04-29
得票数 3
回答已采纳
1
回答
在HDinsight上运行
的
spark
的
故障恢复
、
、
我试图按照中
的
步骤在Azure HDinsight上运行Apache
spark
我想知道我是必须自己管理主/从故障恢复,还是由HDinsight来处理。
浏览 0
提问于2015-04-08
得票数 0
1
回答
如何
为结构化查询
的
不同代码部分指定分区数?
、
我有一个
Spark
流,类似于: .join(anotherDataFrame, columns) .save() 在join步骤中,我希望
spark
.sql.adaptive.enabled是true,因为这将加快连接
的
速度。在repartition步骤中,我希望
spark
.sql.adaptive.enabled是false,因为如果是真的,它可能会更改分区,保存
的
结果将被格式化为错误
的
分区。<
浏览 0
提问于2019-01-28
得票数 2
2
回答
如何
在
Spark
Structured
Streaming
中读取Kafka
和
查询外部存储,如Cassandra?
、
如何
在
Spark
Structured
Streaming
中读取Kafka
和
查询外部存储,如Cassandra?我从Kafka获得消息流,我想对它
应用
Map操作,对于每个键,我想查询像Cassandra这样
的
数据存储,并获得该键
的
更多信息,并在流上
应用
进一步
的
操作。我
如何
使用
Spark
Structured
Streaming
2.2.0来做到这一点?
浏览 2
提问于2017-09-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
简谈Spark Streaming的实时计算整合
携程实时计算平台架构与实践
从Storm到Flink:大数据处理的开源系统及编程模型
走进大数据 Spark Streaming
Spark Streaming 中管理 Kafka Offsets 的几种方式
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券