腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
使用
DataFrame
的
数据库
中
,
spark
streaming
中
接收
的
输入
数据
全部
为
小写
、
、
、
我
的
spark
streaming
应用程序
使用
aws kenisis
中
的
数据
并部署
在
databricks
中
。我
使用
org.apache.
spark
.sql.Row.mkString方法来
使用
数据
,整个
数据
都是以
小写
形式
接收
的
。实际
输入
具有驼峰大
小写
字段名称和
浏览 10
提问于2019-07-18
得票数 0
回答已采纳
2
回答
数据
源io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。
、
、
、
我试图读取卡夫卡
的
数据
,并将其上传到格林梅利
的
数据库
使用
火花。我
使用
的
是格林梅-火花连接器,但我正在获取
数据
源,io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。是否格林梅源不支持流媒体
数据
?我曾尝试将
数据
源命名为“绿梅”,并将"io.pivotal.greenplum.
spark
.GreenplumRe
浏览 0
提问于2019-04-04
得票数 0
回答已采纳
2
回答
如何将
数据
帧
中
的
数据
存储
在
变量
中
,以用作cassandra
中
select
的
参数?
、
、
、
、
我有一个
Spark
结构
的
流媒体应用程序。应用程序从kafka
接收
数据
,并且应该
使用
这些值作为参数来处理来自cassandra
数据库
的
数据
。我
的
问题是,我如何
使用
输入
数据
帧(kafka)
中
的
数据
,作为cassandra
中
的
"where“参数"select”,而不会出现以下
浏览 25
提问于2021-05-24
得票数 0
回答已采纳
3
回答
持续信息JobScheduler:59 -
在
我
的
Spark
独立集群
中
添加作业时间*毫秒
、
、
我们正在
使用
具有8核和32 We
的
Spark
独立集群,具有相同配置
的
3个节点集群。 有时批处理流在不到1秒
的
时间内完成。
在
某些情况下,控制台中会出现以下日志,该时间超过10秒。
浏览 0
提问于2016-03-29
得票数 3
1
回答
火花放电
中
StaticDataFrame与静态
DataFrame
的
区别
、
我正在阅读
Spark
2.2.0文档,发现这是对Static DataFrames
的
奇怪引用 因为
Spark
2.0,DataFrames和
数据
集可以表示静态
的
、有界
的
数据
,以及流
的
、无界
的
数据
。与静态
数据
集/DataFrames类似,您可以
使用
公共入口点SparkSession (Scala/Java/Python/R )从流源创建流Dat
浏览 1
提问于2017-12-24
得票数 1
回答已采纳
2
回答
火花结构流和过滤器
星星之火2.1,结构化流与原始计数(*),和(字段)是工作正常之上
的
地板文件,但过滤不起作用。), StructField(fieldname,StringType,true), StructField(valuestr,StringType,true))aggDF: org.apache.
spark
.sql.
DataFrame
=
浏览 0
提问于2017-07-31
得票数 6
回答已采纳
3
回答
使用
Spark
Streaming
时限制Kafka批量大小
、
、
、
是否可以限制Kafka消费者返回
Spark
Streaming
的
批量大小? 我之所以问这个问题,是因为我得到
的
第一批记录有上亿条记录,需要很长时间才能处理和设置检查点。
浏览 0
提问于2016-10-11
得票数 18
回答已采纳
1
回答
Spark
Streaming
在哪里运行?
、
据我所知,
Spark
可以
使用
Spark
Streaming
分析流。Kafka可以从多个来源
接收
数据
。我不明白
的
是,如果我有一个Kafka集群从多个来源
接收
数据
,
数据
会被发送到一个运行
Spark
Streaming
的
数据库
吗?或者
Spark
Streaming
是否
在
应用服务器上运行?
浏览 5
提问于2017-01-25
得票数 0
回答已采纳
2
回答
如何显示一个流
DataFrame
(AnalysisException显示失败)?
、
、
、
所以我
在
Kafka主题中有一些
数据
,我把这些流
数据
放到一个
DataFrame
中
。我想要显示
DataFrame
中
的
数据
:from kafka import KafkaProducer from pyspark.sql import SparkSession,
DataFrame
:
spark
-sql-kafka-0-10_2.11:2.2.0,org.apache.
spar
浏览 3
提问于2017-07-14
得票数 5
回答已采纳
1
回答
如何节流火花流?
、
、
这个问题脱离了我关于管理AmazonDynamoDbClient节流和重试
的
另一个问题。然而,我认为解决方案可能存在之前,我甚至到发电机电话。我
的
高级过程如下:我有一个scala应用程序,它
使用
Apache读取大型CSV文件,并对它们执行一些聚合,然后将它们写入dynamo。我将其部署到EMR以提供可伸缩性。问题是,一旦聚合完成,我们就有数以百万计
的
记录准备进入发电机,但我们有一个写容量
的
发电机。它们不需要立即插入,但是最好能控制每秒多少次,这样我们就可以根据用例对其进行微调。下面是我到目前为止所得到<e
浏览 3
提问于2017-03-28
得票数 3
1
回答
来自单个JavaStreamingContext(JavaReceiverInputDStream)
的
多个JavaPairDStream
、
我有一个队列,我正在
使用
Spark
Streaming
从队列
中
读取
数据
。我需要将这些
数据
(
在
一些计算之后)写入2个不同
的
表(两个表
的
计算是不同
的
)。我注意到我
的
代码只执行第一个JavaPairDStream,而不执行另一个。我
在
两个PairStreams上都有输出操作。我还注意到,如果队列
中
的
数据
很小-比方说只有一条消息,那么它
浏览 0
提问于2016-09-08
得票数 0
4
回答
如何读取一次流
数据
集并输出到多个
接收
器?
、
我有一个
Spark
Structured
Streaming
Job,它从S3读取
数据
,转换
数据
,然后将其存储到一个S3
接收
器和一个Elasticsearch
接收
器。当这样做时,似乎
Spark
从S3源读取
数据
两次,每个
接收
器一次。 有没有一种更有效
的
方法来写入同一管道
中
的
多个
接收
器?
浏览 1
提问于2017-09-19
得票数 14
1
回答
使用
spark
和
spark
streaming
构建服务
、
、
、
我读过一些关于
spark
streaming
的
文章,我想知道是否有可能
使用
rabbitmq作为代理从自定义来源流式传输
数据
,并通过
spark
流提供这些
数据
,
Spark
的
机器学习和图形处理算法将在这些
数据
上执行,并将其发送到其他文件系统/
数据库
/仪表板或客户
接收
器。附注:我用python编写代码,我没有任何
使用
spark
浏览 5
提问于2020-09-02
得票数 0
2
回答
用消防软管从分区文件夹
中
读取JSON
、
、
、
Kinesis将文件
的
持久性(
在
本例
中
为时间序列JSON )管理
为
一个文件夹层次结构,该层次结构由YYYY/MM/DD/HH (直到24小时编号)...great划分。那么我如何
使用
Spark
2.0来读取这些嵌套
的
子文件夹,并从所有的叶json文件
中
创建一个静态
的
Dataframe
呢?
数据
阅读器有“选项”吗?我
的
下一个目标是成为一个流DF,火龙将新文件
浏览 4
提问于2016-10-30
得票数 8
1
回答
Spark
Streaming
MYsql
、
我想获取
数据
行,这是插入到外部mysql
数据库
后每2分钟。我想做这件事与火花流。但是
在
程序运行一次time.So后,我得到了这个错误,它第一次给了我
数据
,但在那之后,我得到了以下错误,程序终止了16/08/02 11:15:44 INFO JdbcRDD: closedat org.apache.
spark
.
streaming
.StreamingContext.start(StreamingContext.scala:594)
浏览 16
提问于2016-08-03
得票数 1
1
回答
我可以
使用
Pyspark更新远程Mysql DB
中
的
表
中
的
值吗?
、
、
、
、
我正在
使用
kafka从远程mysql
数据库
读取
数据
,并将其传递到Pyspark
streaming
以应用情感分析,然后用该值更新mysql
数据库
中
的
列。这是最好
的
情况,还是有比这更有效
的
架构?
浏览 1
提问于2019-11-20
得票数 0
2
回答
每批大小
的
火花流调整记录
的
数量不起作用?
、
、
我
的
星火流应用程序是从卡夫卡读取
使用
DStream方法,我试图获得批量大小,以处理60,000条消息
在
10秒内。我所做
的
, 创建StreamingContext时,将批处理持续时间设置
为
1
浏览 0
提问于2019-07-08
得票数 2
回答已采纳
1
回答
火花结构化流MemoryStream报告当用于自定义水槽时没有选择
的
数据
、
、
、
我试图编写简单
的
测试用例
使用
火花结构流。代码是受github上
的
启发
的
。
的
测试用例
中
运行它def demoCustomSink: Unit = { val doubled = input.toDS:43) at org.apache.
spark
.sql.execution.
streaming
.StreamExecution.org$apache$
spark<
浏览 0
提问于2016-10-12
得票数 1
1
回答
无
数据
时停止提交作业
、
、
、
我
使用
spark
streaming
通过自定义
接收
器从mq
中
的
队列
中
获取
数据
。Javastreaming上下文持续时间
为
10秒。并且为来自队列
的
输入
定义了一个任务。
在
spark
UI
中
的
事件时间线
中
,我看到每隔10秒就会提交一个作业,即使没有来自
接收
方
的
数据
浏览 2
提问于2018-03-15
得票数 0
2
回答
如何对
Spark
结构化流媒体进行单元测试?
、
、
我想了解一下
Spark
Structured
Streaming
的
单元测试方面。我
的
场景是,我从Kafka获取
数据
,并
使用
Spark
Structured
Streaming
使用
它,并在
数据
上应用一些转换。 我不确定如何
使用
Scala和
Spark
来测试它。有人能告诉我如何
使用
Scala
在
结构化流媒体中进行单元测试吗?我还是个流媒体新手。
浏览 3
提问于2019-07-05
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming 2.2.0 Example
Spark Streaming与Kafka如何保证数据零丢失
如何使用闭包函数在thinkphp模型中操作数据库的增删更查
大数据之spark基础知识
Spark Streaming 2.2.0 Input DStreams和Receivers
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券