腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
RDDs
类型
的
混淆
pyspark
、
apache-spark-sql
、
rdd
我刚开始学习
Spark
,开始学习
RDDs
,现在开始学习DataFrames。在我当前
的
pyspark项目中,我正在将一个S3文件读入RDD,并对其运行一些简单
的
转换。下面是代码。. \ filter(lambda line: line.split(",")[5] == '1') SplitComma是一个对行数据执行一些日期计算并返回10个逗号分隔字段
的
函数。一旦我得到它,我运行最后一个过滤器,如图所示,只拾取字段5中value = 1
的
行
浏览 20
提问于2020-01-30
得票数 0
回答已采纳
2
回答
使用scala在Apache
spark
中连接不同
RDDs
的
数据集
scala
、
apache-spark
、
apache-spark-sql
、
distributed-computing
、
rdd
有没有办法在
spark
中连接两个不同RDD
的
数据集? 需求是-我使用scala创建了两个具有相同列名
的
中间
RDDs
,需要组合这两个
RDDs
的
结果并缓存结果以访问UI。我如何在这里组合数据集?
RDDs
的
类型
为
spark
.sql.SchemaRDD
浏览 2
提问于2014-12-10
得票数 35
回答已采纳
1
回答
如何在火花放电中设置KryoSerializer?
dataframe
、
apache-spark
、
pyspark
、
rdd
我是新来
的
,请帮我一下:sc.setSystemProperty("
spark
.dynamicAllocation.enabled", "true") sc.setSystemProperty("
spark
浏览 3
提问于2020-03-16
得票数 1
回答已采纳
1
回答
无法理解scala操作是如何在Apache
spark
中运行
的
scala
、
apache-spark
、
time
、
rdd
、
operation
我所了解到
的
是,火花作业在有任务要在
RDDS
上操作
的
阶段上工作,在这些阶段中,它们是通过从
spark
控制台开始
的
惰性转换创建
的
。(如果我错了,请纠正我) ,那么这些函数和应用在
RDDs
上
的
任务之间有什么关系呢?Scala
的
编码有RDD上
的
操作,据我所知,RDD是逻辑
浏览 0
提问于2019-07-07
得票数 0
1
回答
RDDs
在
spark
中能持续多久?
apache-spark
、
persistence
、
spark-streaming
、
rdd
我已经写了一个程序,在其中我将RDD持久化到
spark
stream中,这样一旦新
的
RDD来自
spark
stream,我就可以将以前缓存
的
RDD与新
的
RDD连接起来。有没有办法为这个持久化
的
RDDs
设置生存时间,这样我就可以确保我不会加入我在上一个流周期中已经得到
的
RDDs
。另外,如果有人能解释并指出
RDDs
中
的
持久化是如何工作
的
,那就太好了,比如当我从
spark</em
浏览 1
提问于2015-07-15
得票数 1
1
回答
从
spark
scala中
类型
为case类
的
列提取数据时出错
scala
、
apache-spark
asInstanceOf[Employee].first_name**)) 我可以分解employees列表,但是当我试图从Employee获取first_name时,我得到了一个类转换异常,说明列不能转换为
类型
浏览 32
提问于2020-09-10
得票数 0
1
回答
的
Scalaz
类型
类
scala
、
apache-spark
、
functional-programming
、
rdd
、
scalaz
目标是实现不同
类型
的
类(如半群、Monad、函子等)。由Scalaz为
Spark
的
RDD (分布式集合)提供。不幸
的
是,我无法创建任何接受更高
类型
类型
(如Monad、函子等)
的
类型
类。和
RDDs
合作得很好。
RDDs
被定义(简化)为: def map[U: ClassTag](f: T => U): RDD[U] = {
浏览 3
提问于2016-04-17
得票数 7
回答已采纳
1
回答
将RDD转换为DataFrame时
的
java.lang.StackOverFlowError
python
、
dataframe
、
rdd
、
pyspark-sql
我得到
的
初始错误是 at java.lang.Thread.run(Thread.java:748) 我做了一些研究,似乎这个与数据帧相关
的
DAG(有向无环图)太大了,我应该对我
的
数据做一些缓存/检查点
浏览 26
提问于2019-11-08
得票数 0
1
回答
星火graphX使边缘/顶点RDD由数据挖掘而成
scala
、
apache-spark
、
type-conversion
、
spark-graphx
我有两个大型数据格式,edge和vertex,我知道它们需要特殊
类型
的
Vertex和Edge
RDDs
,但是我找到
的
每个教程都将Edge和Vertex
RDDs
指定为3到10个条目的数组。我需要他们直接转换从一个实质性
的
RDD。如何将dataframe/普通
的
RDD转换为正确
的
类型
? 我遵循了这里
的
示例:,但是它列举了所有的关系,在我
的
用例中有很多关系。sc.parallelize((ve
浏览 1
提问于2019-02-11
得票数 2
1
回答
在KryoSerializer和JavaSerializer上使用Scala酸洗序列化
scala
、
apache-spark
、
serialization
、
kryo
、
scala-pickling
在为Serialization搜索最佳apache-
spark
技术
的
同时,我在下面的链接中发现,使用该框架,在scala中
的
Serialization将更快、更自动。(参考文献- ) 注意:我正在使用scala语言编写apa
浏览 4
提问于2017-03-21
得票数 2
回答已采纳
1
回答
PySpark如何在SparkSql和Dataframes中使用泡菜
pyspark
、
spark-dataframe
、
pickle
、
pyspark-sql
我试图了解PySpark是如何为
RDDs
使用泡菜
的
,并避免对SparkSql和Dataframes使用泡菜。这个问题
的
基础是slide#30 in link.I,我在下面引用它以供参考: "PySpark
RDDs
通常是腌制对象
的
RDDs
。
Spark
(和DataFrames)可以避免其中
的
一些内容“。
Spark
中如何使用泡菜?
浏览 6
提问于2017-06-25
得票数 1
回答已采纳
3
回答
Spark
Streaming中
的
窗口?
apache-spark
、
spark-streaming
在
spark
streaming中,我们接收
的
DStreams是一批
RDDs
。那么窗口如何进一步提供帮助呢? 据我所知,它还批处理
RDDs
。如果我错了,请纠正我(
Spark
Streaming
的
新手)。
浏览 4
提问于2015-10-08
得票数 7
回答已采纳
1
回答
scala抛出java.util.NoSuchElementException:键未找到:0异常
scala
、
caching
、
apache-spark
val matrixA3=sc.textFile("A3") val cacheArray=
rdds
(0).asInstanceOf[RDD[Array[Double]]] val cacheLength=cacheArray.collect()
浏览 4
提问于2015-03-26
得票数 4
1
回答
Spark
SQL中Group By子句
的
底层实现
apache-spark
、
apache-spark-sql
Spark
SQL中Group By子句
的
底层实现是什么?我知道
Spark
支持下面两种
类型
的
Group by操作,即GroupByKey和ReduceByKey。ReduceByKey是一种map side reduce,它提供了比GroupByKey更好
的
性能。在我们
的
应用程序代码中,我们在
Spark
Dataframe上使用
Spark
SQL,而不是直接创建
RDDs
。所以,我想到了这个问题,
Spark</
浏览 0
提问于2019-08-30
得票数 1
1
回答
union()操作中
的
任务执行顺序
scala
、
apache-spark
下面是我
的
代码草图:但是,我对生成
的
DAG有问题。AFAIK,这意味着在最后一项任务中,
Spark
将以并行
的
80还原键调度,其中每个键都占用大量内存。在完成此RDD
的
映射阶段之后,为每个rdd单独
浏览 1
提问于2018-07-19
得票数 2
1
回答
H20数据帧与
Spark
RDD
的
区别
h2o
我正在研究h2o框架,以使用其额外
的
机器学习工具。我只是好奇H20数据帧和
Spark
RDDs
有什么不同。h2o数据帧可以像
Spark
RDDs
一样缓存或持久化吗?
浏览 0
提问于2017-05-21
得票数 2
1
回答
如何在Apache
Spark
中连接地图并对其执行RDD操作?
sql
、
csv
、
apache-spark
我一直在玩Apache
Spark
,首先我学习了PostgreSQL,我有几个问题需要在
Spark
上运行。我设法在
Spark
SQL中将它们作为SQL字符串运行,但现在我必须执行RDD操作才能获得相同
的
结果。我将数据从csv加载到地图。现在,我必须选择这些映射中
的
特定列,但我不知道如何连接它们(多个映射/csv文件)。我
的
第二个问题是如何最好地执行RDD操作,以便从postgresql查询中获得相同
的
结果?
浏览 7
提问于2019-06-09
得票数 0
1
回答
df中
的
映射&按键约简
pyspark
首先-谢谢你花时间阅读我
的
问题。+-------+-------------+-------+------+-----+ 我想我需要为每一行创建一个<key><value>对,这意味着我
的
键
浏览 0
提问于2019-05-01
得票数 1
回答已采纳
2
回答
如何将org.apache.
spark
.ml.linalg.Vector
的
RDD转换为Dataset?
apache-spark
、
apache-spark-sql
、
rdd
、
apache-spark-mllib
、
apache-spark-dataset
我很难理解
RDDs
、DataSets和DataFrames之间
的
转换是如何工作
的
。我对
Spark
非常陌生,每次我需要从一个数据模型传递到另一个数据模型(特别是从
RDDs
到数据集和Dataframes)时,我都会陷入困境。有人能解释一下我是怎么做
的
吗?举个例子,现在我有了一个RDD[org.apache.
spark
.ml.linalg.Vector],我需要将它传递给我
的
机器学习算法,例如一个KMeans (火花DataSet MLlib)。因此,我需要
浏览 1
提问于2018-06-04
得票数 2
回答已采纳
1
回答
spark
.sql.shuffle.partitions到底指的是什么?
apache-spark
、
apache-spark-sql
spark
.sql.shuffle.partitions到底指的是什么?我们是在谈论一个宽转换
的
结果
的
分区
的
数量,还是在中间发生
的
事情,比如在宽转换
的
结果分区之前发生
的
某种中间分区?因为根据我
的
理解,根据一个广泛
的
转变
spark
.sql.shuffle.partitions参数在这
浏览 3
提问于2018-09-24
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark基础篇
Spark Streaming和Kafka集成深入浅出
想要月入30k以上,那么这门技术是必须了解的
如果你想月薪超过3万英镑,那么这项技能是必要的
Spark 核心编程RDD简介与核心属性
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券