腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
有没有
可能有
两个
Spark
进程
同时
读取
一个
Delta
Table
中
的
流
?
、
、
我正在接收
一个
增量表
中
的
数据,并且我希望有
两个
消费者处理该数据
的
读取
: 我把这些代码放在不同
的
罐子里: 1)实时计算聚合
的
Spark
进程
。val df_aggregations =
spark
.readStream .option("ignoreDeletes", "true&q
浏览 27
提问于2019-04-18
得票数 1
回答已采纳
1
回答
如何在使用merge重新插入后从
Delta
表
中
获取新
的
/更新
的
记录?
、
、
、
在火花
流
作业
中
,有什么方法可以在到
Delta
表之后得到更新/插入行?val df =
spark
.readStream(...) .merge(
浏览 3
提问于2021-09-19
得票数 2
回答已采纳
2
回答
从数据库
中
的
Delta
Live表流到kafka实例
、
、
、
、
我有下面的活桌我想把它写进一条
流
里,然后写回我的卡夫卡源。我在apache文档中看到,我可以使用writeStream (我已经使用readStream将它从我
的
kafka
流
中提取出来)。但是,我如何将表转换成它所需要
的
介质,以便它可以使用它呢?我对卡夫卡和数据世界都很陌生,所以这里欢迎任何进一步
的
解释。
流
中提取出来)。但是,我如何将表转换成它所需要
的
介质,以便它能够使用它呢?我对kafka和数据世界都很陌生,所以这里欢迎任何进一步
的
解释。
浏览 11
提问于2022-11-03
得票数 1
回答已采纳
1
回答
Databricks激发了向许多接收器写入结构化
流
的
最佳实践?
、
、
、
、
我正在使用databricks
spark
3.x,并且我正在
读取
大量
的
流
(100+),并且每个
流
都有自己
的
契约,并且需要写到它自己
的
增量/parquet/sql/任何表
中
。虽然这是很多
流
,但每个
流
的
活跃度很低-有些
流
一天可能只看到数百条记录。我确实想要
流
,因为我
的
目标是一种相当低延迟
的
方法。(&q
浏览 25
提问于2020-10-25
得票数 1
1
回答
如何使火花
流
按顺序执行
、
、
、
问题有什
浏览 4
提问于2021-04-20
得票数 2
回答已采纳
1
回答
具有周期性更新静态数据集
的
结构化
流
、
、
流
和静态数据集
的
合并是结构化
流
的
一个
很好
的
特点。但是每一批数据集都会从数据源
中
刷新。由于这些源并不总是动态
的
,因此在指定
的
时间段(或批数)缓存静态数据集将是一种性能增益。在指定
的
批处理期间/批数之后,数据集将从源重新加载,否则将从缓存
中
检索。 在星火
流
中
,我使用缓存
的
数据集来管理它,并在指定数量
的
批处理运行后取消它<e
浏览 1
提问于2017-12-13
得票数 9
2
回答
以编程方式链接
Delta
流
以提高AnalysisException
、
、
情况:我正在生成
一个
增量文件夹,其中包含来自以前
的
流
查询A
的
数据,稍后从另
一个
DF
读取
数据,如下所示1 --当我试图以这种方式从相同
的
程序
读
浏览 2
提问于2019-12-28
得票数 0
1
回答
火花
流
处理每个触发器1条记录
、
、
、
我正在尝试Databricks开发人员基金会Capstone,但我似乎无法通过
流
练习。df = (
spark
.readStream.schema(DDLSchema).option("maxFilesPerTrigger", 1).json(stream_path对它进行了转换 ordersQuery = (orders_df.write
浏览 1
提问于2021-10-06
得票数 0
1
回答
spark
structured
Delta
streaming情况下
的
下推过滤器
、
我有
一个
用例,我们需要将Open Source
Delta
表流式传输到多个查询
中
,并对其中
一个
分区列进行过滤。例如,.给定
的
增量表在年份列上分区。Streaming query 1where("year= 2013") St
浏览 0
提问于2021-02-24
得票数 1
1
回答
异常:通过并发更新将org.apache.
spark
.sql.
delta
.ConcurrentAppendException:文件添加到表
的
根目录
中
、
、
、
我有
一个
简单
的
星火作业,它将数据流到
Delta
表。这张表很小,没有分区。按照文档()
中
的
建议,我添加了
一个
压缩作业,每天运行一次。val numFiles = 16
spark
.read .load(path)每次压缩作业运行时,
流
浏览 5
提问于2021-08-12
得票数 4
1
回答
Python
同时
从管道
进程
和Popen子
进程
读取
stdin
、
、
、
我有
一个
非常具体
的
问题,我试图
同时
读取
两个
流
,
一个
从管道
进程
读取
到stdin,另
一个
从Popen启动
的
子
进程
读取
。将该程序命名为“stream_compare.py”while True: line = sys.stdin.readline().,在启动程序时
浏览 19
提问于2018-01-11
得票数 1
回答已采纳
1
回答
Databricks结果缓存
、
Databricks有结果缓存
的
概念吗?当我运行
一个
SQL查询时,它是在某个地方缓存结果集以便进行子秒访问,还是只有
Delta
湖缓存?我在文档
中
找不到任何东西,在这个阶段,我假设它不作为
一个
特性存在。
浏览 4
提问于2019-10-17
得票数 1
1
回答
用火花结构
流
重新插入(合并)增量
、
、
、
我需要在python
中
实时插入数据(使用火花结构化
流
)--这些数据是实时
读取
的
(格式为csv),然后编写为
一个
增量表(这里我们想更新数据,这就是为什么我们使用merge ),我使用
的
是增量引擎和databricks,检查点路径按预期填写,
delta
表
中
的
显示也会给出结果。display(
table
("deltaTable")) 在星星之火UI
中
,我看到写
的
步骤:
浏览 5
提问于2021-12-10
得票数 4
回答已采纳
1
回答
如何获取增量表
的
最新版本号
、
、
在我
的
一个
用例
中
,我使用
的
是
delta
lake
的
change ( CDF )特性,它很适合使用CDF,但是当我
读取
所有要插入
的
数据时,它列出了所有版本,是否有一种方法可以只
读取
最新版本而不指定版本号或获取最新版本return
spark
.read.format("
delta
") \ .option("readChangeFeed&q
浏览 7
提问于2022-06-05
得票数 0
1
回答
避免Apache
Spark
结构化
流
中
的
多窗口重复
读取
、
、
、
、
我是Apache
Spark
Structured Streaming
的
新手,我正在做
一个
基本
的
POC。我
的
需求是构建
一个
规则引擎,它将从HDFS
读取
数据,HDFS接收来自多个源
的
连续数据
流
。我需要根据此HDFS数据
的
可配置时间窗口运行不同
的
规则。例如,
可能有
一个
规则需要在最后5分钟
的
数据上运行,而第二个规则将在最后7分钟
的
数据
浏览 31
提问于2021-09-16
得票数 1
3
回答
将新列追加到现有的拼花文件
中
、
、
是否有任何方法将新列附加到现有的拼花文件
中
?我知道
Spark
随而来,但是这个例子只给出了
一个
键值
的
情况。 拼花“附加”模式也做不到这一点。它只将新行附加到拼花文件
中</
浏览 1
提问于2015-08-04
得票数 14
1
回答
Delta
Lake将多个文件压缩为单个文件
、
我目前正在探索
delta
,这是由databricks开源
的
。我正在
读取
kafka数据,并使用
delta
lake格式将其写入为
流
。
Delta
lake在从kafka进行流式写入
的
过程
中
创建了许多文件,我觉得kafka是hdfs文件系统
的
核心。 我已经尝试过将多个文件压缩为单个文件。() val df =
spark
.read.parquet("deltalakefile/data/
浏览 16
提问于2019-10-13
得票数 4
回答已采纳
1
回答
使用Symlink格式声明对
Delta
湖表进行星火SQL查询
、
、
、
、
我运行
的
是SPAR3.1.1和AWS emr-6.3.0集群,具有以下蜂巢/亚稳态配置:
s
浏览 3
提问于2022-02-09
得票数 2
回答已采纳
1
回答
如何在本地模式下将2个python (pyspark)脚本提交给相同
的
火花会话
、
我正在本地模式下在
一个
ec2实例上运行
Spark
3.0。今天,我希望能够在并行
中
运行多个python脚本,以便提供对我使用
的
spark
会话
的
访问- .config("
spark
.jars.packages", "io.
delta
:
delta
-core_2.12:0.7.0"
浏览 2
提问于2020-09-19
得票数 0
回答已采纳
1
回答
使用表名
读取
增量表版本
、
有没有
办法可以使用表名而不是路径来
读取
增量表
的
版本?我寻找这个用例
的
原因是,分析师团队只想知道2021-02-07
的
表
的
完整快照,但他/她只知道表名,而他们不知道实际数据所在
的
ADLS路径。我们可以从Databricks文档
中
读取
如下版本:df =
spark
.read.format("
delta
").option("t
浏览 2
提问于2021-04-09
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
作业帮湖仓一体最佳实践
Delta Lake,让你从复杂的Lambda架构中解放出来
京东实时数据仓库开发实践
深度对比Delta、Iceberg和Hudi三大开源数据湖方案
Spark Streaming+Kafka+Hbase项目实战
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券