腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
k8s上的
Spark
结构化流媒体
、
我们正在使用
spark
2.4.3运行一个结构化的流式处理过程,它从kafka读取
数据
,转换
数据
(使用udf平面化并创建一些列),然后将
数据
写回kafka到不同的主题。正如我上面解释的那样,我们没有聚合,也没有在
数据
集上使用持久化。我们注意到的是堆内存在不断增长。有什么想法吗?
浏览 17
提问于2019-07-08
得票数 1
1
回答
SortMergeJoin不更改为广播连接
、
我有两个
数据
文件,比如sDF (小尺寸)和bDF (
大
尺寸)。我正在尝试使用BroadCastJoin加入他们。我调用了星火外壳并通过查询验证相同:+--------------------+-----+
浏览 0
提问于2019-09-03
得票数 0
3
回答
如何从oracle
数据
库中提取
数据
并保存到Google云平台
、
需要从oracle
数据
库中提取
数据
并存储在Google云平台中。
数据
大小约为10 TB。有没有可能通过
Spark
?
数据
必须每月传输一次。在GCP中存储和处理的
数据
如下: Oracle
数据
库到云存储(不必做CSV导出),然后它将是干净的,并准备在Dataprep中,这将通过
数据
流进一步处理,最后它将被存储在Big Query下(从
大
查询
数据
科学家将使用
数据
来创建他们的模型我正在考虑从
spark
浏览 2
提问于2019-11-17
得票数 0
1
回答
星星之火:将大型MySQL表读入DataFrame失败
、
我试图编写一个作业,将
数据
(每天一次)从MySQL表移动到存储在Amazon S3上的Parquet / ORC文件的Hive表中。其中一些表相当
大
:~ 300 m记录和200 GB+ size (如phpMyAdmin所报告)。目前,我们正在为此使用sqoop,但出于以下原因,我们希望迁移到
Spark
: 我已经能够在小型MySQL表
浏览 1
提问于2018-03-07
得票数 7
3
回答
从
数据
集行中选择列
、
、
我想在
Spark
数据
集上循环,并根据每行的特征将特定值保存在Map中。我是
Spark
和Scala的新手,所以我加入了一个简单的例子来说明我在python中要做的事情。[row['id']] = row['surname'] mydict[row['id']] = "Random lad" 其中,data是org.apache.
spark
.sql.Datasetorg.apache.
spark</em
浏览 15
提问于2019-10-22
得票数 0
回答已采纳
1
回答
寻找
Spark
SQL的ARRAY_CONTAINS替代解决方案
、
我使用嵌套
数据
结构(数组)来存储
Spark
表的多值属性。我在
Spark
SQL中使用array_contains(数组,值)来检查数组是否包含值,但似乎存在性能问题。一个
大
的
Spark
表需要很长的时间。有没有其他的解决方案。
浏览 0
提问于2018-09-23
得票数 0
1
回答
当
Spark
处理的
数据
大于内存容量时?
、
、
据我所知,
Spark
使用内存缓存
数据
,然后在memory.But中计算
数据
,如果
数据
比内存
大
怎么办?我可以阅读源代码,但是我不知道调度工作是由哪个类完成的?或者你能解释一下
Spark
如何处理这个问题的原理吗?
浏览 0
提问于2014-04-23
得票数 4
1
回答
替代other_column中WHERE列的快速
Spark
、
、
我正在寻找一种快速的PySpark替代方案WHERE foo IN (SELECT baz FROM bar) 预先收集到Python列表中绝对不是一个选择,因为处理的
数据
帧非常
大
浏览 2
提问于2020-05-18
得票数 2
1
回答
是否有解决"org.apache.
spark
.SparkException: Kryo序列化失败:缓冲区溢出。可用: 0,必需: n“错误的解决方法?
、
、
、
我正在通过
spark
-submit运行一个pyspark作业,在这个作业中,在应用一些额外的逻辑之前,首先将两个大型镶嵌板桌子连接在一起。提交后,所有任务都会失败,日志中会显示以下内容: Caused by: org.apache.
spark
.SparkException: Kryo serialization failed: BufferTo avoid this, increase
spark
.kryoserializer.buffer.max value *n只是一个变量,表示需要多少内存。该值取决于我将
spark
.
浏览 87
提问于2020-01-18
得票数 0
2
回答
Apache星火体系结构
、
、
我知道
Spark
正在尝试处理存储在同一个节点上的HDFS中的
数据
(以避免网络I/O)。例如,我试图在这个1Tb文本文件中进行单词计数。星火何时不会使用HDFS上的本地
数据
? 如果我需要完成更复杂的任务,当每个工作人员的每一次迭代的结果需要转移到所有其他工作人员(洗牌?)时,我是否需要自己将它们写到HDFS,然后读取它们呢?
浏览 9
提问于2015-06-11
得票数 7
回答已采纳
3
回答
以高效的方式从BigQuery读取到
Spark
?
、
、
、
当使用从BigQuery读取
数据
时,我发现它首先将所有
数据
复制到Google Cloud Storage。然后将这些
数据
并行读取到
Spark
中,但当读取
大
表时,复制
数据
阶段需要很长时间。那么有没有更有效的方法将
数据
从BigQuery读取到
Spark
中呢? 另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS,从GCS并行阅读)。复制阶段是否受
Spark
簇大小的影响,还是需要固定的时间?
浏览 6
提问于2017-01-04
得票数 7
回答已采纳
1
回答
Apache比较文件和SQL
数据
、
、
我将使用Apache
Spark
来处理
大
文本文件,其中在处理周期中,将文本部分与来自大型SQL表的
数据
进行比较。我对Apache
Spark
完全陌生,虽然我确信Subtask #1是“他的人”,但我不能完全肯定,Subtask #2是否可以由火花(我的意思是说,以有效的方式处理)。问题是
Spark
如何处理
大
SQL中的可迭代选择(也许,尽可能多地缓存?)在并行和分布式环境中?
浏览 3
提问于2015-03-05
得票数 0
回答已采纳
1
回答
如何使用python对数千行
数据
执行ETL?
、
、
、
、
我有一个pgAdmin
数据
库,它在geojson format.Using中包含数百万行,这个表是我创建的Tableau仪表板。由于行包含geojson格式的
数据
,所以我必须这样查询:jsondata -> 'properties' ->> 'qq',, jsondata'updatedAt'as bigint)/1000 as int) * INTERVAL
浏览 4
提问于2020-04-10
得票数 0
2
回答
如何将
spark
数据
框保存为excel格式?
、
对于csv,我已经这样做了:将csv文件保存在每个节点中,并使用DataBricks
spark
-csv库将其附加到服务器中。 我不知道在Excel中该怎么做。有人能给我建议和点子吗?
浏览 22
提问于2017-04-11
得票数 0
2
回答
广播加入火花不工作左外
、
、
、
我有一个小表(2k )记录和一个
大
表(5mil)记录,我需要从小表中获取所有
数据
,并且只从
大
表中匹配
数据
,为了实现这一点,我执行了下面的查询select /*+ broadcast(small)*/ small
浏览 1
提问于2020-07-04
得票数 1
1
回答
如何减少
spark
批处理作业创建开销
我们正在考虑的选项之一是在批处理模式下使用
spark
,而不是Apache Hadoop YARN。然而,我读到提交批处理作业给
spark
带来了巨大的开销。这是一种我们可以减少/消除这种开销的方法吗?
浏览 1
提问于2016-05-25
得票数 0
1
回答
pyspark查找
数据
帧中超出范围的值
、
我在pyspark里有两个
数据
帧。我正在尝试将一个
数据
帧与另一个
数据
帧进行比较,以查看值是否在范围内。 Dataframe dfcompare:我正在寻找的输出:我目前拥有的代码如下: compare= df.compare.fillna(0) df =
spark
_df.agg(*(F.count(F.when((F.col(c) > co
浏览 0
提问于2021-03-28
得票数 1
0
回答
等同于MYSQL时间的
Spark
time
数据
类型
、
、
、
我正在通过JDBC从MYSQL导入
数据
到
spark
,其中一列有时间类型(SQL类型time和JDBC类型java.sql.Time)和
大
的小时值(例如: 168:03:01)。
Spark
将它们转换为时间戳格式,并导致读取三位数hour.How时出错,以处理
Spark
中的时间类型
浏览 5
提问于2016-07-14
得票数 3
1
回答
我是否可以使用memoization来缓存从
spark
作业读写的hbase中的
数据
?
、
、
、
、
在一个有
Spark
任务的Scala项目中,我使用了
Spark
-Hbase连接器(SHC)来连接从Hbase
数据
读取。请求的数量非常
大
,我正在尝试使用缓存的
数据
一段时间。我想知道我是否能做到这一点。
浏览 17
提问于2019-09-28
得票数 0
1
回答
Pyspark dataframe拼接vs.增量:不同的行数
、
、
、
我在HDFS上以Delta格式写入了
数据
。据我所知,Delta正在以拼接的形式存储
数据
,只是在它上面增加了一个具有高级功能的层。但是,当使用Pyspark读取
数据
时,如果使用
spark
.read.parquet()或
spark
.read.format('delta').load()读取dataframe,我会得到不同的结果 df=
spark
.read.format('delta').load("my_data") df.cou
浏览 28
提问于2021-01-27
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
走进大数据 Spark-Spark streaming
大数据:Spark
Spark计算引擎:Spark数据处理模式详解
大数据Spark框架:Spark生态圈入门
Spark 如何 post 数据
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券