腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
有没有
一个
很好
的
方法来
加入
spark
中
的
流
和
变更
表
?
、
我们
的
Spark
环境:Apache4.2(包括DataBricks
Spark
2.3.1,Scala2.11)<datas
浏览 1
提问于2018-08-23
得票数 6
回答已采纳
1
回答
加入
Redis streams
、
(看起来有可能构建由append-log驱动
的
小型系统,如Kafka,但没有Kafka
的
所有开销。) 它看起来很简单,可以通过XADD访问日志/
流
,并使用日志/
流
中
的
条目。但是如果你想跨两个
流
加入
呢? Kafka Streams、Flink、
Spark
等提供了这样做
的
方法。在Redis宇宙中
有没有
等价物?如果不是,我想我只需要实现我自己
的
东西,从两个
流<
浏览 12
提问于2019-03-23
得票数 6
1
回答
有没有
办法查看
一个
给定
的
CL被提交到哪个
流
、
我有
一个
python脚本,可以获取强制CL信息并将其打包成xml文件,但我似乎找不到一种
方法来
查看
变更
列表被提交到哪个
流
中
。我不确定这是否可能,因为
变更
列表可以包含来自多个
流
的
文件。如果是这样的话,
有没有
一种简单
的
方法来
访问给定CL
中
的
第
一个
文件,这样我就可以查看它
的
文件路径并从中派生出
一个
流
浏览 0
提问于2015-10-05
得票数 2
1
回答
KStream-KTable LeftJoin,当KTable未完全加载时发生连接
、
我试图使用KStream来用主题B丰富主题A
中
的
项目。主题A是我
的
KStream,主题B是我
的
KTtable,有大约2300万条记录。这两个主题
的
密钥都不是设定好
的
,所以我必须使用还原剂将KStream(主题B)转换为KTable。我
的
主题是只有
一个
分区。有什么办法可以提高性能吗?我试图将下面的设置设置为reduec写吞吐量,但似乎并没有提高很多。据我
的
理解,基于时间戳
的
kstream进程记录,我不明白为什么在我<e
浏览 3
提问于2020-04-27
得票数 0
1
回答
使用数据仓库从CosmosDB生成报告
、
、
、
、
我在使用SQL为我
的
应用程序使用COSMOSDB,我需要从Azure COSMOSDB生成表格
和
可视化报告。我需要参考
的
标准方法或指南是什么?我猜直接将它与Power或SSRS这样
的
工具连接会导致某些问题。我需要对数据进行分析,因此生成reports.Creating数据仓库是生成此类报告
的
最佳方法,但是如何将数据从NoSQL COSMOSDB传输到Azure SQL。 有人能帮我澄清我
的
疑虑吗。
浏览 3
提问于2020-02-14
得票数 0
1
回答
在
spark
中
优化Hive
表
加载时间
、
、
、
、
我正在从事
一个
火花
流
项目,其中传入
的
流
加入
多个Hive
表
。所以我在
spark
中加载
表
并缓存它。by date desc) row_num from test) tmp where tmp.row_num = 1") 该
表
有99%
的
重复数据,因此我使用行号逻辑来获得distinct。当我做df.explain(true)
的
时候,下推没有条件。所以整个
表
会加载到内存
中
浏览 1
提问于2019-03-22
得票数 4
1
回答
基于key -
Spark
/Kafka
的
加入
流
、
、
假设
spark
给出了2个
流
,其中
一个
流
不是100%同步
的
。获取流媒体可能会有所不同。我们需要通过键
加入
流。
有没有
办法在没有任何持久性
的
情况下这样做呢?
浏览 6
提问于2017-08-03
得票数 0
2
回答
MongoDB TTL但是要做其他
的
事情
、
、
我有
一个
要求,在传递日期属性字段时,我们要触发两件事: 谢谢!
浏览 0
提问于2018-07-26
得票数 3
2
回答
如何获得星火结构
流
中
的
前1行?
、
、
、
我有
一个
问题,星火
流
(星火2.2.1)。我正在开发
一个
实时管道,首先从Kafka获取数据,然后将结果与另
一个
表
连接起来,然后将Dataframe发送到ALS模型(
Spark
),然后返回
一个
流
Dataframe,并附加
一个
列预编辑器。问题是,当我试图获得最高
的
分数时,我找不到解决问题
的
方法。我试过: 在Sta
浏览 0
提问于2018-02-23
得票数 1
1
回答
使用
Spark
查询数据
的
最佳实践是什么?
、
、
在
Spark
2.0.0上,如果我有
一个
数据库,经常使用
一个
表
A与其他
表
进行连接,我是否应该持久化我
的
表
A并以这种方式
加入
?还是应该使用
Spark
方法来
指定连接A
和
B、A
和
C等
的
查询?如果我想使用where条件i.e .多次查询
表
Z
和
SELE
浏览 3
提问于2016-09-20
得票数 0
回答已采纳
2
回答
Clickhouse Kafka主题
加入
:
、
我有两个(以及更多) Kafka主题,我需要
加入
他们。我
的
问题来自我在博客/StackOverflow上读到
的
内容...有两个选项: 1)将它们都流式传输,Clickhouse Kafka引擎/
spark
流
,然后运行join,这在Clickhouse
中
是不推荐
的
2)构建
一个
包含所有列
的
表
,并使用Clickhouse引擎/
spark
streaming更新相同
的<
浏览 22
提问于2019-03-06
得票数 1
2
回答
如何将
spark
live
流
与另
一个
流在整个生命周期中收集
的
所有数据连接起来?
、
、
、
、
我有两个
spark
流
,第
一个
是与产品相关
的
数据:它们对供应商
的
价格,货币,它们
的
描述,供应商id。通过对描述和美元价格
的
分析,这些数据通过类别进行了丰富。然后将它们保存在拼图数据集中。第二个
流
包含有关这些产品拍卖
的
数据,然后是它们
的
销售成本
和
日期。 考虑到产品可以在今天到达第一
流
,并在一年内销售,我如何
加入
第二
流
,以及包含在第一
流</em
浏览 23
提问于2018-01-17
得票数 7
回答已采纳
1
回答
使用Apache
Spark
- Scala检查
加入
流是否成功
、
、
、
我刚接触Apache
Spark
,使用
的
是Scala。我可以使用以下命令将
一个
表
加入
到
流
中
:cusId key item price
加入
后,更新后
的
消息
浏览 0
提问于2021-02-17
得票数 0
1
回答
火花结构化
流
作业如何处理
流
-静态DataFrame连接?
、
、
、
我有
一个
火花结构化
流
作业,它从cassandra
和
deltalake读取映射表,并
加入
流df。我想了解这里的确切机制。星火是否击中了这些数据来源(卡桑德拉
和
德尔塔雷克)
的
每
一个
周期
的
微批?如果是这样的话,我在
spark
中看到这些
表
只读取一次。请帮我理解一下。提前感谢
浏览 2
提问于2020-12-02
得票数 1
回答已采纳
1
回答
结构化流式传输指标性能?
、
、
、
在尝试了一些监视结构化
流
性能
和
输入/输出指标的方法后,我发现一种可靠
的
方法是附加streamingQueryListener来输出streamingQueryProgress,以获得输入/输出数量。除了SparkUI,将queryProgress输出到文件或Kafka
的
最好方法是什么?在
spark
streaming
和
spark
struc
浏览 1
提问于2018-05-19
得票数 2
1
回答
在左外接之前过滤数据是否有帮助?
、
、
、
我只看到消息来源说这对RDDs有帮助,所以我想知道这对DataFrames是否有帮助,因为
Spark
和
spark
引擎
的
优化方式不同。table 3 = table1.join(table2, 'key2', 'left_outer'), 在
加
浏览 0
提问于2018-02-03
得票数 2
1
回答
ADF映射数据
流
-重用单个正在运行
的
spark
集群并行执行映射数据
流
、
、
我们在ADF中有
一个
复杂
的
ETL,通过数据
流
活动运行多个管道,以基于
表
依赖关系在数据仓库中加载多个
表
。作为运行具有相互依赖关系
的
多个管道
的
结果,几个数据
流
被作为一些顺序运行
和
一些并行运行
的
混合来执行。看起来每个并行运行
的
数据
流
都会产生
一个
新
的
spark
集群,这导致我们每天
的
ETL运行成本飙升!理想情况下,如果可
浏览 11
提问于2020-08-28
得票数 0
回答已采纳
1
回答
如何在星火流上连接卡夫卡
的
流
数据
、
我是新来
的
火花
流
。我试图做一些关于从kafka获取数据和
加入
蜂巢
表
的
练习,我不知道如何
加入
火花
流
(而不是结构化
流
)。这是我
的
密码 ) val strm
浏览 0
提问于2019-02-01
得票数 1
1
回答
为什么流连接卡夫卡主题
的
查询要花这么长时间?
、
、
我使用星火结构
流
和
连接两个来自卡夫卡主题
的
流
。我注意到,
流
查询对于每条记录大约需要15秒。在下面的截图中,阶段id 2需要15s。为什么会这样? val kafkaTopic2 = "demo3" .builde
浏览 1
提问于2018-11-27
得票数 1
回答已采纳
1
回答
RDDs在
spark
中
能持续多久?
、
、
、
我已经写了
一个
程序,在其中我将RDD持久化到
spark
stream
中
,这样一旦新
的
RDD来自
spark
stream,我就可以将以前缓存
的
RDD与新
的
RDD连接起来。
有没有
办法为这个持久化
的
RDDs设置生存时间,这样我就可以确保我不会
加入
我在上
一个
流
周期中已经得到
的
RDDs。另外,如果有人能解释并指出RDDs
中
的
持久化是如何工
浏览 1
提问于2015-07-15
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
1,StructuredStreaming简介
系统解读Kafka的流和表(一):开篇
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
如果你想月薪超过3万英镑,那么这项技能是必要的
抛弃Spark?Flink会是下一代大数据计算引擎吗?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券