腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
Spark
在
没有
调用
任何
操作
的
情况下
也
会
读取
数据
?
、
、
、
在
使用
spark
.read.json时,我对
Spark
上
的
延迟加载感到困惑。(json_data_files) 而HDFS上
的
JSON
数据
是按年和月(year=yyyy,month=mm)分区
的
,我想检索该
数据
集
的
所有
数据
。对于此代码块,我只从定义
的
位置
读取
数据
,并且
没有
执行
任何
操作
。但我
在
<
浏览 17
提问于2021-10-13
得票数 0
回答已采纳
1
回答
Spark
-多次使用
数据
帧,无需多次卸载
、
、
、
如何才能复制
数据
帧而不将其再次卸载到redshift?val companiesData =
spark
.read.format("com.databricks.
spark
.redshift") val result = df.select("companynumber") }在这种
情况
浏览 1
提问于2018-03-08
得票数 0
1
回答
循环中
的
Pyspark延迟计算速度太慢
、
、
、
首先,我想让您知道,我
在
spark
方面仍然是一个新手,并且正在习惯惰性评估
的
概念。 这里是我
的
问题: 我有两个通过
读取
CSV.GZ文件加载
的
spark
DataFrames。我试图做
的
是合并这两个表,以便根据我
在
第二个表上
的
键拆分第一个表。Y个不相交
的
表,其中Y是我
在
合并后
的
表中找到
的
不同'Dept‘值
的
数量。: sp
浏览 35
提问于2019-01-22
得票数 1
回答已采纳
2
回答
内存管理火花
、
、
1.)我理解“星火
的
操作
人员如果
数据
不适合内存,就会将
数据
泄漏到磁盘上,允许它在
任何
大小
的
数据
上运行良好”。如果这是真的,
为什么
我们会得到OOM (内存中
的
)错误?3.)与Hive相比,
Spark
更容易受到OOM
的
影响
浏览 4
提问于2020-07-17
得票数 0
回答已采纳
1
回答
Spark
如何处理超出其容量
的
内存
假设我
的
Spark
集群有100G内存,
在
Spark
计算过程中,会生成更多大小为200G
的
数据
(新
数据
帧、缓存)。在这种
情况下
,
Spark
会将部分
数据
存储
在
磁盘上,还是只会使用OOM
浏览 235
提问于2020-07-14
得票数 0
回答已采纳
1
回答
Snowflake : SQL访问控制错误:权限不足,无法对架构进行
操作
、
、
我已经编写了aws glue job,我试图将雪花表作为
spark
数据
帧
读取
,并尝试将
spark
数据
帧写入snowflake表。在这两种
情况下
,我
的
工作都无法显示“
操作
模式
的
权限不足”。但是当我
在
雪花cli上直接写insert语句时,我能够插入
数据
。所以基本上我有插入权限。那么,当我尝试从dataframe中插入
数据
或从snowflake表中
读取
数据</e
浏览 0
提问于2019-02-09
得票数 0
2
回答
Spark
.read.csv()是转换上
的
操作
吗
、
、
在
“火花权威指南”一书中,比尔说,阅读是一种转变,它是一种狭义
的
转变,据我所知,Job是一个叫做
的
动作。此外,如果我尝试在
读取
CSV时输入一些选项,我会在
spark
UI中看到另一个作业,例如,当我们运行以下代码时,
在
<
浏览 1
提问于2021-05-01
得票数 2
1
回答
避免
在
Apache中使用Java
数据
结构以避免复制
数据
、
、
我有一个包含大约1亿条记录(~25 100,~5列)
的
单表
的
MySQL
数据
库。使用Apache,我通过JDBC连接器提取这些
数据
,并将其存储
在
DataFrame中。我已经
在
Spark
的
Java中实现了这一点,但是它太慢了(就我
的
目的而言),因为我将大量
数据
从DataFrame复制到java.util.Vector和java.util.List (以便能够迭代所有记录并进行预处理),然后返回到DataFrame (因为
浏览 2
提问于2016-06-02
得票数 0
回答已采纳
4
回答
如何在
Spark
sql中访问HIVE ACID表?
、
、
、
如何在
Spark
sql中访问HIVE ACID表?
浏览 2
提问于2018-11-08
得票数 1
2
回答
当文件不能放入
spark
的
主内存时,
spark
如何
读取
大文件(‘s)
、
、
在这些
情况下
,大文件会发生什么情况? 1)
Spark
从NameNode获取
数据
的
位置。
Spark
是否会在同一时间停止,因为根据来自NameNode
的
信息,
数据
大小太长?2)
Spark
根据datanode块大小对
数据
进行分区,但不能将所有
数据
存储到主存中。这里我们不使用StorageLevel。那么这里会发生什么呢?3)
Spark
做
数据
分区,有些
数据
会存储<e
浏览 0
提问于2017-10-09
得票数 30
回答已采纳
2
回答
spark
.read或
spark
.sql是惰性转换吗?
、
、
在
Spark
中,如果源
数据
在
两个
操作
调用
之间发生了变化,
为什么
我仍然得到以前
的
o/p,而不是最近
的
。通过DAG,一旦
调用
操作
,所有
操作
都将被执行,包括
读取
操作
。难到不是么?例如,从火花表中
读取
df =
spark
.sql("select * from dummy.table1")
浏览 6
提问于2021-11-30
得票数 2
2
回答
使用分区JSON
的
Spark
分区投影/下推和模式推理
、
、
、
我想以JSON格式
读取
分区
数据
的
子集,使用
spark
(3.0.1)从JSON推断模式。x && $"dt" >= y && $"dt" <= z)
读取
时,
spark
尝试
读取
整个
数据
集以推断模式。(请注意,在这种
情况下
,除非我指定basePath,否则
spark
也
会
丢失type和dt列,但这没问题,
浏览 20
提问于2021-01-27
得票数 4
1
回答
Spark
和Metastore关系
、
、
我知道Hive Metastore用于存储我们
在
HIVE中创建
的
表
的
元
数据
,但是
为什么
spark
需要Metastore,Metastore和
Spark
之间
的
默认关系是什么
为什么
即使iam
没有
使用
任何
sql库,
spark
by defaults
也<
浏览 8
提问于2017-09-21
得票数 4
1
回答
即使对等体挂断,poll()
也
可以返回POLLIN事件吗?
、
、
、
、
我看到,即使在对等体关闭套接字之后,poll()系统
调用
也
会
返回POLLIN事件。我看到POLLIN和POLLERR集。即使
在
read()
调用
返回-1之后,这种情况
也
会
继续发生。只有
在
没有
轮询
的
情况下
,我
的
逻辑才会处理POLLERR,以确保
在
套接字断开连接之前
读取
任何
已经到达
的
数据
包。因此,我
浏览 2
提问于2017-05-07
得票数 0
1
回答
在
databricks中,如何将表
数据
加载到
数据
帧中?逐行还是批量?
、
、
我需要将一个包含大约1400万条记录
的
表中
的
几列加载到dataframe中。一旦表被加载,我需要根据两列中出现
的
值创建一个新列。我希望
在
将表加载到dataframe中时,为新列编写逻辑以及select命令。例如: df =
spark
.read.table(tableName) .withColumn('newColumnName首先将这几列
的
表加载到df中,然后
在
已加载<em
浏览 12
提问于2020-12-20
得票数 0
2
回答
在
Spark
SQL中加入分区以获得更好
的
性能
、
我是
Spark
SQL
的
新手。我有一个关于连接期间分区使用
的
问题 假设有一个名为test1
的
表,它保存在10分区(parquet)文件中。还假设
spark
.sql.shuffle.partitions = 200。问:如果使用test1对另一个表进行Join,
Spark
会使用10分区(这是表所在分区
的
数量)执行
操作
,还是会在200分区中对表进行重新分区(根据随机分区
的
值),然后执行连接?在这种
情况下
,连接将产生更好<
浏览 42
提问于2021-01-30
得票数 0
1
回答
使用
spark
和
spark
streaming构建服务
、
、
、
我读过一些关于
spark
streaming
的
文章,我想知道是否有可能使用rabbitmq作为代理从自定义来源流式传输
数据
,并通过
spark
流提供这些
数据
,
Spark
的
机器学习和图形处理算法将在这些
数据
上执行,并将其发送到其他文件系统/
数据
库/仪表板或客户接收器。附注:我用python编写代码,我
没有
任何
使用
spark
的
经验,我可以称之为我试图
浏览 5
提问于2020-09-02
得票数 0
1
回答
在
火花代码中多次引用DF时(如果我们不使用persist),每次使用DAG是否都会创建DataFrames?
我
在
面试中遇到了这个问题。
操作
顺序如下。基于某种条件过滤
数据
。我很想了解下面的情况 一旦文件被
读取
,DF不会留在内存中直到火花作业完成吗?如果在进一步
的
步骤中
没有
使用DF,那么即使将它从内存中删除,我们
也
不介意。但是如果它是
在</e
浏览 1
提问于2020-07-25
得票数 0
回答已采纳
2
回答
是否会在每次
操作
中从外部源
读取
数据
?
、
、
在
星火外壳上,我使用下面的代码从csv文件中
读取
val df =
spark
.read.format("org.apache.
spark
.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //
spark
here is the
浏览 5
提问于2016-12-05
得票数 1
回答已采纳
1
回答
在上
调用
`cache‘是否消除了以后对Hive/HDFS
的
调用
?
、
、
我们有一个
spark
应用程序,它从存储
在
HDFS中
的
parquet文件上构建
的
HMS表中
读取
使用
spark
的
数据
。
spark
应用程序运行在单独
的
hadoop环境上。我们使用委托令牌来允许
spark
应用程序对Kerberized /HDFS进行身份验证。我们不能
也
不应该使用键标签直接验证
spark
应用程序。由于委托令牌过期,经过一段时间后,我们
的<
浏览 7
提问于2022-01-10
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据学习之Spark缓存机制
Spark Streaming 中管理 Kafka Offsets 的几种方式
Spark Streaming和Kafka集成深入浅出
大数据入门:Spark持久化存储策略
Spark应用数据分片介绍
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券