如何查看Spark Streaming应用的逻辑和物理规划？

、、

我正在寻找一种在Spark中打印流媒体应用程序的执行计划的方法。我知道这是可能的print the plan of a SQL Spark application。但是，我想展示流应用程序的逻辑和物理计划。下面是我的应用程序： package org.sense.spark.app import org.apache.spark</em

浏览 11提问于2019-09-30得票数 0

回答已采纳

1回答

这两种连接两种数据格式的方法有什么区别？

、、

这两种连接两种数据格式的方法有什么区别？在数据文件中使用"createOrReplaceTempView“，并使用sparkSession.sql()。

浏览 0提问于2018-12-17得票数 2

回答已采纳

2回答

我刚刚开始探索Spark/Spark Streaming，我看到我们可以使用Spark Integration进行实时计算，并将其提供给UI Dashboard。我的问题是，如果在Spark Integration作业启动后的任何时候，它被停止/或崩溃，当它出现时，它将如何从上次处理的位置恢复。据我所知，Spark维护着一个内部状态，我们会为我们收到的每一个新数据更新这个状态。但

浏览 0提问于2017-08-01得票数 0

1回答

queryExecution在火花数据中的用途是什么？

、

我必须了解数据对象上名为queryExecution的变量，并在控制台的输出下面找到它。但是它不确定如何帮助.Please在控制台中找到输出。scala> df.queryExecution== Parsed Logical Plan

浏览 6提问于2017-01-18得票数 6

回答已采纳

2回答

过滤器与Hive where子句

、、、

我只是想知道这个火花密码就像这个一样有效率：在第一组中，我们是将所有的单元数据加载到RAM中，还是足够聪明地在执行生成的DAG时过滤蜂巢中的这些值

浏览 2提问于2020-08-28得票数 0

回答已采纳

3回答

如何将火花结构流DataFrame插入到Hive外部表/位置？

、、

一个关于星火结构流与HIVE表集成的查询。 val spark =SparkSession.builder().appName("StatsAnalyzer") .confighive.exec.dynamic.partition", "true") .config("hive.exec.dynamic.partition.mode"

浏览 0提问于2018-12-28得票数 13

3回答

持续信息JobScheduler:59 -在我的Spark独立集群中添加作业时间毫秒*

、、

我们正在使用具有8核和32 We的Spark独立集群，具有相同配置的3个节点集群。有时批处理流在不到1秒的时间内完成。在某些情况下，控制台中会出现以下日志，该时间超过10秒。

浏览 0提问于2016-03-29得票数 3

1回答

面向1000+主题的火花流设计

、、

我必须用下面的用例设计一个火花流应用程序。我正在寻找最好的方法来解决这个问题。Input Type 2 Topic --> Spark Streaming按主题启动1000+火花流应用</

浏览 2提问于2017-06-13得票数 2

1回答

使用apache spark或flink的基于S3的流媒体解决方案

、、、、

目前，我们有一个批处理应用程序，它每小时运行一次，处理这些文件。企业希望数据每5分钟可用一次。取而代之的是，我们决定使用apache spark结构化流式处理，并实时处理数据，而不是每5分钟运行一次批处理作业。我的问题是，这个解决方案的生产有多容易/多难？我唯一担心的是，如果检查点位置损坏，删除检查点目录将重新处理过去1年的数据。有没有人使用s3的spark structured来生产任何解决方案，或者你认为flink更适

浏览 27提问于2019-06-29得票数 0

回答已采纳

1回答

Spark Streaming job如何在Kafka主题上发送数据并保存在Elastic中

、、、、

我正在做一个数据分析项目，在这个项目中，我从CSV文件中读取数据，在Kafka主题上遍历该文件，并使用Spark Streaming来使用该Kafka主题数据。我在一个单一的项目中使用的所有组件。所以我从Spark Streaming开始做这些事情(将数据保存到elastic中，并将数据发送到topic)。，即在Elastic Search中保存数据，然后从Spark Streaming中将其发送到主题中？2)我在一个项目中使用app组件(Kafka，

浏览 0提问于2019-06-04得票数 0

1回答

实例化AbstractMethodError异常时JavaStreamingContext异常

、

我的依赖指数如下；找不到线索，谁能建议这里出了什么问题吗？ <dependency> <-- https://mvnrepository.com/artifact/org.apache

浏览 0提问于2019-01-11得票数 1

回答已采纳

1回答

需要类似于ProC的东西来实现嵌入式CQL

、、

我们正在将应用程序从SQL迁移到CQL。我们使用嵌入式C++来执行查询。有没有人能推荐一些类似于CQL的Pro C

浏览 2提问于2015-04-21得票数 0

2回答

火花流吞吐量监测

、、、、

是否有一种方法可以监视Spark集群的输入和输出吞吐量，以确保群集不会被传入的数据淹没和溢出？在我的例子中，我在AWS EC2上设置了Spark集群，因此我考虑使用AWS CloudWatch来监视集群中每个节点的NetworkIn和NetworkOut。但我的想法似乎是不准确的，网络并不意味着只有星火的输入数据，也许还会有其他一些数据也会被计算出来。是否有一种工具或方法专门监视

浏览 3提问于2015-05-01得票数 8

回答已采纳

1回答

在Dataset元素中执行“不转换”操作的最佳方法是什么？

、、、

新来的火花，我正在寻找一种方式，以执行所有元素的数据集与星火结构化流我得到了val df = Dataset[Person]，我想做这样的事情： df.foreachsomeHttpClient.doRequest(httpPostRequest(p.asSt

浏览 0提问于2020-08-19得票数 0

1回答

火花过滤器操作顺序为O(1)或O(n)

、、

我试图理解火花的概念，但只是在某一点上感到困惑，我想知道spark.filter是O(n)还是O(1)，如果我先对数据进行排序，然后进行过滤，它是否会对顺序复杂性产生任何影响。因此，我们会尽量详细解释:-Case 1 : Spark.filter(id.equals(3)) Case 2 : Spark.sortBy(id).filter

浏览 0提问于2018-10-09得票数 1

回答已采纳

5回答

spark流可视化

、、

我正在使用spark streaming从kafka broker中流式传输数据。我正在使用spark streaming对数据执行转换。有没有人能推荐一个可视化工具，我可以用它来显示实时的图形和图表，这些图表会随着数据流的更新而更新？

浏览 0提问于2015-05-15得票数 3

1回答

即使列不在dataframe中，星火仍在向下推倒过滤器。

、

我有一个包含列的DataFrame：我选择它是为了我只保留field1, field2在那之后，我有一个使用field5的过滤器，我希望它会抛出一个分析错误，因为列不在那里，而是过滤原始的DataFrame (在select之前)，因为它正在按压过滤器，如下所示： == Parsed Logical如您所见，物理计划在项目之前有过滤器.这是预期的行为吗？我希望有一个分析例外.这个问题<

浏览 2提问于2021-04-29得票数 3

回答已采纳

1回答

在HDinsight上运行的spark的故障恢复

、、

我试图按照中的步骤在Azure HDinsight上运行Apache spark 我想知道我是必须自己管理主/从故障恢复，还是由HDinsight来处理。

浏览 0提问于2015-04-08得票数 0

1回答

如何为结构化查询的不同代码部分指定分区数？

、

我有一个Spark流，类似于： .join(anotherDataFrame, columns) .save() 在join步骤中，我希望spark.sql.adaptive.enabled是true，因为这将加快连接的速度。在repartition步骤中，我希望spark.sql.adaptive.enabled是false，因为如果是真的，它可能会更改分区，保存的结果将被格式化为错误的分区。<

浏览 0提问于2019-01-28得票数 2

2回答

如何在Spark* Structured Streaming中读取Kafka和查询外部存储，如Cassandra？*

、

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？我从Kafka获得消息流，我想对它应用Map操作，对于每个键，我想查询像Cassandra这样的数据存储，并获得该键的更多信息，并在流上应用进一步的操作。我如何使用Spark Structured Streaming 2.2.0来做到这一点？

浏览 2提问于2017-09-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

这两种连接两种数据格式的方法有什么区别？

使用Spark* Streaming定期保存计算结果？*

queryExecution在火花数据中的用途是什么？

过滤器与Hive where子句

如何将火花结构流DataFrame插入到Hive外部表/位置？

持续信息JobScheduler:59 -在我的Spark独立集群中添加作业时间毫秒*

面向1000+主题的火花流设计

使用apache spark或flink的基于S3的流媒体解决方案

Spark Streaming job如何在Kafka主题上发送数据并保存在Elastic中

实例化AbstractMethodError异常时JavaStreamingContext异常

需要类似于ProC的东西来实现嵌入式CQL

火花流吞吐量监测

在Dataset元素中执行“不转换”操作的最佳方法是什么？

火花过滤器操作顺序为O(1)或O(n)

spark流可视化

即使列不在dataframe中，星火仍在向下推倒过滤器。

在HDinsight上运行的spark的故障恢复

如何为结构化查询的不同代码部分指定分区数？

如何在Spark* Structured Streaming中读取Kafka和查询外部存储，如Cassandra？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐