腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Apache
Spark
Streaming :如何比较2个
数据流
中
的2个数据帧
、
、
我是Apache
Spark
的初学者。我正在尝试运行一个流作业,它接收一些数据,将其转换为数据帧,并运行一些处理,
如
连接和删除重复项等。现在我必须
缓存
这个处理过的数据,这样我就可以将它附加到下一个
数据流
(使用一些联合/连接),并再次进行处理。Caused by: org.apache.
spark</e
浏览 0
提问于2017-02-16
得票数 1
2
回答
如何有效地对Google云
数据流
进行大型矩阵乘法?
在第二个场景
中
,我们需要乘两个大型矩阵,它们都是稀疏的。在第三种情况下,我们需要乘两个大矩阵,它们都是稠密的。在上述三种情况下,如
何在
Google上高效地进行矩阵乘法(或矩阵的其他线性代数运算)?
浏览 0
提问于2016-03-23
得票数 1
1
回答
在
数据流
中
缓存
数据集
、
我想知道我是否可以在Google Dataflow平台上直接
缓存
数据集(就像在
Spark
中
缓存
RDDs一样)。如果没有这样的功能,Dataflow如
何在
应用程序
中
挑选热门数据集,特别是当您有多个热门数据集,并且您希望根据数据集的重要性来确定
缓存
的优先级时?
浏览 1
提问于2017-09-02
得票数 2
2
回答
Hadoop纱簇性能调整
、
、
火花吐露:-
spark
.executor.memory = 5g纱线吐露:- yarn.scheduler.maximum-allocation-mb = 31744 在节点3& 5上,为什么要使用2gb
中
的节点1、2、4、5、6
浏览 0
提问于2015-11-09
得票数 0
1
回答
如
何在
spark
中
缓存
数据流
、
、
我想从kafka
中
读取结构化的流数据作为
数据流
,对于每个数据,我想用许多函数来处理它,所以我尝试
缓存
数据流
。lines =
spark
\ .format("kafka")\ .option("kafka.bootstrap.servers", bootstrapServers
浏览 0
提问于2018-01-11
得票数 0
2
回答
Spark
中
的转换和动作的行为是什么?
、
、
我们正在执行一些测试,以评估
Spark
和
Spark
SQL
中
的转换和操作的行为。在我们的测试
中
,首先我们设想一个具有2个转换和1个操作的简单
数据流
:第一个
数据流
的执行时间是10秒。接下来,我们向
数据流
中
添加了另一个操作: LOAD (result: df_1) > SELECT ALL F
浏览 2
提问于2016-12-09
得票数 0
1
回答
Spark
:从单个DStream
中
获取多个DStream
、
、
在
spark
中
,可以从单个DStream
中
获得多个DStream。我的用例如下:我从HDFS文件
中
获取日志
数据流
。日志行包含一个id (id=xyz)。我需要根据id以不同的方式处理日志行。所以我试着对输入
数据流
中
的每个id使用不同的
数据流
。我在文档
中
找不到任何相关的东西。有没有人知道如
何在
Spark
中
实现这一点,或者指向任何链接。 谢谢
浏览 1
提问于2016-01-20
得票数 0
1
回答
Spark
Streaming
中
的Processed与RDD
、
、
我在中看到了几个答案(例如),因此建议批处理
中
的记录将成为单个RDD。我对此表示怀疑,因为假设一个batchInterval是1分钟,那么一个RDD将包含最后一分钟的所有数据?注意:我不是直接比较batch和RDD,而是比较
Spark
内部处理的batch。
浏览 0
提问于2017-04-26
得票数 0
1
回答
GCP
数据流
中
的流数据处理支持哪些数据源?
、
、
、
在阅读了很多关于
数据流
的内容后,我发现只有PubSub和bigquery是GCP
数据流
中支持流数据处理的数据源。 还支持哪些其他数据源?我是否可以使用
数据流
完成所有的流任务,这些任务可以使用其他ETL工具,
如
Spark
或Kafka?
浏览 26
提问于2020-07-01
得票数 0
1
回答
数据流
无法捕获来自源.csv azure的行更改
、
、
、
每当我在
数据流
源预览
中
更改csv文件的行时,它都会显示旧数据。这是我的源代码预览 这是我的源文件,我将最后一个指示器更改为FALSE,并将其上传到blob。
浏览 0
提问于2021-07-07
得票数 0
3
回答
在星火中查找数据
、
、
、
我正在使用
Spark
1.6,我想知道如
何在
dataframes
中
实现查找。Emp Id | Dept Name1 | Admin如
何在
SPARK
中
实现这个查找UDF功能。我不想在两个
数据流
上使用连接。
浏览 7
提问于2016-12-22
得票数 4
回答已采纳
1
回答
Spark
Streaming如何处理多个主题
Spark
如
何在
一个
数据流
中
处理多个Kafka主题?2.同时(每个执行者的主题分区)。
浏览 0
提问于2016-07-13
得票数 0
1
回答
Dataset#persist()是终端操作吗?
、
当org.apache.
spark
.sql.Dataset#persist()被调用时,
spark
是否真的
缓存
了Dataset?或者,当在Dataset上调用某些终端操作(
如
count)时,它将被延迟
缓存
。
浏览 11
提问于2017-03-01
得票数 1
1
回答
没有SQLContext的pyspark
中
的clearCache
、
、
、
考虑到SQLContext的pySpark documentation说“从
Spark
2.0开始,这将被SparkSession所取代。”如
何在
不使用SQLContext的情况下从内存
缓存
中
删除所有
缓存
表?例如,其中
spark
是SparkSession,sc是sparkContext from pyspark.sql import SQLContext SQLContext(sc,
spark
).clearCache
浏览 20
提问于2019-05-04
得票数 3
回答已采纳
1
回答
如
何在
Amazon EMR上读取kinesis
数据流
?
、
、
、
我有一个包含tweet流的kinesis
数据流
。我如
何在
pyspark上(在emr上)读取这个流?我希望能够在此
数据流
上执行操作。jupyter上得到这个错误: 'JavaPackage' object is not callable File "/usr/lib/
spark
_jvm.org.apache.
spark
.streaming.kinesis.KinesisUti
浏览 35
提问于2020-07-03
得票数 1
1
回答
Spark
3.0 -从MQTT流
中
读取数据
、
、
、
、
我想从一个基于蚊子的MQTT主题中读取
数据流
到我的
Spark
3.0应用程序
中
。localhost:1883"); 不幸的是,这已经失败了: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/
spark
/sql/sources/v2/StreamWriteSupport 显然,这只适用于2.x版的
Spark
。你知道如
何在
浏览 87
提问于2021-01-27
得票数 0
1
回答
用sc.parallelize()进行数据库IO
缓存
?
我浏览了,但是除了设置一个配置设置以启用DBIO
缓存
之外,没有一行示例说明如
何在
代码中使用DBIO
缓存
(而不是标准的
Spark
缓存
)。我是否应该假设,如果我启用了设置
spark
.conf.set("
spark
.databricks.io.cache.enabled", "true"),那么在我的星火作业
中
,无论我创建什么RDD,基本上都将被视为一个DBIO
缓存
吗?如果我想要区分这两种代码,并将两
浏览 0
提问于2018-02-05
得票数 2
回答已采纳
1
回答
如
何在
Spark
中加入大数据格式?(最佳做法、稳定性、绩效)
、
、
、
在
Spark
中加入大型数据格式时,我得到了与相同的错误。建议设置MEMORY_AND_DISK和/或
spark
.shuffle.memoryFraction 0。但是,在
Spark
1.6.0
中
不推荐使用
spark
.shuffle.memoryFraction,如果我没有
缓存
任何>=或Dataframe,那么设置MEMORY_AND_DISK就不会有帮助了,对吧因此,我的问题是: 在
Spark
>= 1.6.0
中
加入大型数据格
浏览 2
提问于2016-06-23
得票数 12
回答已采纳
2
回答
spark
streaming
中
的
缓存
是否提高了性能
、
因此,我在kafka流
中
的同一rdd上执行多个操作。
缓存
RDD会提高性能吗?
浏览 1
提问于2015-05-15
得票数 5
1
回答
ADF
数据流
正在创建零字节文件
、
、
、
我的ADF
数据流
中有一个条件拆分。成功将行放到SQL数据库
中
,失败条件收集所有不正确的记录,并将它们放入CSV (分隔文本)类型的接收器
中
。我怎么才能阻止它呢?
浏览 5
提问于2021-07-16
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
Spark中的数据缓存和数据持久化机制。
关于Spark Streaming 技术要点的一些汇总
Spark 概述以及与Hadoop的关系
Spark1.6官方文档译文系列一
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券