有没有一个很好的方法来加入spark中的流和变更表？

、

我们的Spark环境:Apache4.2(包括DataBricks Spark 2.3.1，Scala2.11)<datas

浏览 1提问于2018-08-23得票数 6

回答已采纳

1回答

加入Redis streams

、

(看起来有可能构建由append-log驱动的小型系统，如Kafka，但没有Kafka的所有开销。) 它看起来很简单，可以通过XADD访问日志/流，并使用日志/流中的条目。但是如果你想跨两个流加入呢？ Kafka Streams、Flink、Spark等提供了这样做的方法。在Redis宇宙中有没有等价物？如果不是，我想我只需要实现我自己的东西，从两个流<

浏览 12提问于2019-03-23得票数 6

1回答

有没有办法查看一个给定的CL被提交到哪个流

、

我有一个python脚本，可以获取强制CL信息并将其打包成xml文件，但我似乎找不到一种方法来查看变更列表被提交到哪个流中。我不确定这是否可能，因为变更列表可以包含来自多个流的文件。如果是这样的话，有没有一种简单的方法来访问给定CL中的第一个文件，这样我就可以查看它的文件路径并从中派生出一个流

浏览 0提问于2015-10-05得票数 2

1回答

KStream-KTable LeftJoin，当KTable未完全加载时发生连接

、

我试图使用KStream来用主题B丰富主题A中的项目。主题A是我的KStream，主题B是我的KTtable，有大约2300万条记录。这两个主题的密钥都不是设定好的，所以我必须使用还原剂将KStream(主题B)转换为KTable。我的主题是只有一个分区。有什么办法可以提高性能吗？我试图将下面的设置设置为reduec写吞吐量，但似乎并没有提高很多。据我的理解，基于时间戳的kstream进程记录，我不明白为什么在我<e

浏览 3提问于2020-04-27得票数 0

1回答

使用数据仓库从CosmosDB生成报告

、、、、

我在使用SQL为我的应用程序使用COSMOSDB，我需要从Azure COSMOSDB生成表格和可视化报告。我需要参考的标准方法或指南是什么?我猜直接将它与Power或SSRS这样的工具连接会导致某些问题。我需要对数据进行分析，因此生成reports.Creating数据仓库是生成此类报告的最佳方法，但是如何将数据从NoSQL COSMOSDB传输到Azure SQL。有人能帮我澄清我的疑虑吗。

浏览 3提问于2020-02-14得票数 0

1回答

在spark中优化Hive表加载时间

、、、、

我正在从事一个火花流项目，其中传入的流加入多个Hive表。所以我在spark中加载表并缓存它。by date desc) row_num from test) tmp where tmp.row_num = 1") 该表有99%的重复数据，因此我使用行号逻辑来获得distinct。当我做df.explain(true)的时候，下推没有条件。所以整个表会加载到内存中

浏览 1提问于2019-03-22得票数 4

1回答

基于key - Spark/Kafka的加入流

、、

假设spark给出了2个流，其中一个流不是100%同步的。获取流媒体可能会有所不同。我们需要通过键加入流。有没有办法在没有任何持久性的情况下这样做呢？

浏览 6提问于2017-08-03得票数 0

2回答

MongoDB TTL但是要做其他的事情

、、

我有一个要求，在传递日期属性字段时，我们要触发两件事：谢谢!

浏览 0提问于2018-07-26得票数 3

2回答

如何获得星火结构流中的前1行？

、、、

我有一个问题，星火流(星火2.2.1)。我正在开发一个实时管道，首先从Kafka获取数据，然后将结果与另一个表连接起来，然后将Dataframe发送到ALS模型(Spark )，然后返回一个流Dataframe，并附加一个列预编辑器。问题是，当我试图获得最高的分数时，我找不到解决问题的方法。我试过：在Sta

浏览 0提问于2018-02-23得票数 1

1回答

使用Spark查询数据的最佳实践是什么？

、、

在Spark2.0.0上，如果我有一个数据库，经常使用一个表A与其他表进行连接，我是否应该持久化我的表A并以这种方式加入？还是应该使用Spark方法来指定连接A和B、A和C等的查询？如果我想使用where条件i.e .多次查询表Z和 SELE

浏览 3提问于2016-09-20得票数 0

回答已采纳

2回答

Clickhouse Kafka主题加入：

、

我有两个(以及更多) Kafka主题，我需要加入他们。我的问题来自我在博客/StackOverflow上读到的内容...有两个选项： 1)将它们都流式传输，Clickhouse Kafka引擎/spark流，然后运行join，这在Clickhouse中是不推荐的2)构建一个包含所有列的表，并使用Clickhouse引擎/spark streaming更新相同的<

浏览 22提问于2019-03-06得票数 1

2回答

如何将spark* live流与另一个流在整个生命周期中收集的所有数据连接起来？*

、、、、

我有两个spark流，第一个是与产品相关的数据:它们对供应商的价格，货币，它们的描述，供应商id。通过对描述和美元价格的分析，这些数据通过类别进行了丰富。然后将它们保存在拼图数据集中。第二个流包含有关这些产品拍卖的数据，然后是它们的销售成本和日期。考虑到产品可以在今天到达第一流，并在一年内销售，我如何加入第二流，以及包含在第一流</em

浏览 23提问于2018-01-17得票数 7

回答已采纳

1回答

使用Apache Spark* - Scala检查加入流是否成功*

、、、

我刚接触Apache Spark，使用的是Scala。我可以使用以下命令将一个表加入到流中：cusId key item price加入后，更新后的消息

浏览 0提问于2021-02-17得票数 0

1回答

火花结构化流作业如何处理流-静态DataFrame连接？

、、、

我有一个火花结构化流作业，它从cassandra和deltalake读取映射表，并加入流df。我想了解这里的确切机制。星火是否击中了这些数据来源(卡桑德拉和德尔塔雷克)的每一个周期的微批？如果是这样的话，我在spark中看到这些表只读取一次。请帮我理解一下。提前感谢

浏览 2提问于2020-12-02得票数 1

回答已采纳

1回答

结构化流式传输指标性能？

、、、

在尝试了一些监视结构化流性能和输入/输出指标的方法后，我发现一种可靠的方法是附加streamingQueryListener来输出streamingQueryProgress，以获得输入/输出数量。除了SparkUI，将queryProgress输出到文件或Kafka的最好方法是什么？在spark streaming和spark struc

浏览 1提问于2018-05-19得票数 2

1回答

在左外接之前过滤数据是否有帮助？

、、、

我只看到消息来源说这对RDDs有帮助，所以我想知道这对DataFrames是否有帮助，因为Spark和spark引擎的优化方式不同。table 3 = table1.join(table2, 'key2', 'left_outer'), 在加

浏览 0提问于2018-02-03得票数 2

1回答

ADF映射数据流-重用单个正在运行的spark集群并行执行映射数据流

、、

我们在ADF中有一个复杂的ETL，通过数据流活动运行多个管道，以基于表依赖关系在数据仓库中加载多个表。作为运行具有相互依赖关系的多个管道的结果，几个数据流被作为一些顺序运行和一些并行运行的混合来执行。看起来每个并行运行的数据流都会产生一个新的spark集群，这导致我们每天的ETL运行成本飙升！理想情况下，如果可

浏览 11提问于2020-08-28得票数 0

回答已采纳

1回答

如何在星火流上连接卡夫卡的流数据

、

我是新来的火花流。我试图做一些关于从kafka获取数据和加入蜂巢表的练习，我不知道如何加入火花流(而不是结构化流)。这是我的密码 ) val strm

浏览 0提问于2019-02-01得票数 1

1回答

为什么流连接卡夫卡主题的查询要花这么长时间？

、、

我使用星火结构流和连接两个来自卡夫卡主题的流。我注意到，流查询对于每条记录大约需要15秒。在下面的截图中，阶段id 2需要15s。为什么会这样？ val kafkaTopic2 = "demo3" .builde

浏览 1提问于2018-11-27得票数 1

回答已采纳

1回答

RDDs在spark中能持续多久？

、、、

我已经写了一个程序，在其中我将RDD持久化到spark stream中，这样一旦新的RDD来自spark stream，我就可以将以前缓存的RDD与新的RDD连接起来。有没有办法为这个持久化的RDDs设置生存时间，这样我就可以确保我不会加入我在上一个流周期中已经得到的RDDs。另外，如果有人能解释并指出RDDs中的持久化是如何工

浏览 1提问于2015-07-15得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

加入Redis streams

有没有办法查看一个给定的CL被提交到哪个流

KStream-KTable LeftJoin，当KTable未完全加载时发生连接

使用数据仓库从CosmosDB生成报告

在spark中优化Hive表加载时间

基于key - Spark/Kafka的加入流

MongoDB TTL但是要做其他的事情

如何获得星火结构流中的前1行？

使用Spark查询数据的最佳实践是什么？

Clickhouse Kafka主题加入：

如何将spark* live流与另一个流在整个生命周期中收集的所有数据连接起来？*

使用Apache Spark* - Scala检查加入流是否成功*

火花结构化流作业如何处理流-静态DataFrame连接？

结构化流式传输指标性能？

在左外接之前过滤数据是否有帮助？

ADF映射数据流-重用单个正在运行的spark集群并行执行映射数据流

如何在星火流上连接卡夫卡的流数据

为什么流连接卡夫卡主题的查询要花这么长时间？

RDDs在spark中能持续多久？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐