腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8582)
视频
沙龙
2
回答
如
何以
最
有效
的
方式
删除
spark
RDD
的
标题
行
?
、
这是我拥有的数据框架
的
示例。顺便说一句,这类问题被一些公司作为谜题提出,以测试对
Spark
数据帧
的
理解。因此,与其提出避免这个问题
的
理想方法,不如想出最
有效
的
办法。
浏览 37
提问于2019-12-02
得票数 0
1
回答
在地图函数中读取数据?
、
、
、
| file_pathabc | s3://data/file1.json对于此数据中
的
每一
行
,我希望以分布式
方式
读取位于file_path 中
的
.文件
的
内容。以下是我尝试过
的
:
r
浏览 1
提问于2020-09-28
得票数 1
3
回答
如何将
RDD
[Array[Any]]转换为DataFrame?
我
的
RDD
[ArrayAny]如下所示:1556273771,Mumbai,1189193,1189198,0.56,-1,India,Australia,1571215104,15712151664567362933,9374749392我需要将其转换为10列
的
数据帧,但我对
spark
是个新手。请让我知道如
何以
最
简单
浏览 0
提问于2019-10-17
得票数 1
1
回答
从文件中读取图形
、
、
、
希望在我
的
Windows机器上运行一个GraphX示例,使用SparklyR安装Hadoop/
Spark
的
SparklyR。scala>"V1" "V2"1001 9308122\tmp\hadoop中安装了正确
的
winutils。是否有遗漏
的
代码或路径可以消除下面的错
浏览 3
提问于2017-01-02
得票数 0
回答已采纳
1
回答
Pyspark dataframe:从csv加载,然后
删除
第一
行
、
、
、
、
如何
删除
第一
行
,并使第二
行
作为我
的
标题
? 我见过一些
RDD
解决方案。但我无法加载该文件,并且使用以下代码时出现错误"
RDD
is file“ items = sc.textFile(f"abfss://{container}@{storage_account_name}.dfs.core.windows.net/tmp/items.csv") firstRow=data.first() 因此,我更喜欢
浏览 30
提问于2020-03-20
得票数 0
回答已采纳
2
回答
火花:统计摘要
、
我正在尝试使用星火汇总统计数据,
如
:所述import org.apache.
spark
.mllib.linalg.Vector required: org.apache.
spark
.
rdd
.
RDD
[org.apache.
spark
.mllib.linalg
浏览 3
提问于2015-01-23
得票数 1
回答已采纳
1
回答
如何在
spark
scala中读取文件时从文件中
删除
页脚
、
我正在尝试在读取文件时从文件中
删除
页脚。是否有类似"footer“= "true”
的
选项。
浏览 8
提问于2019-10-11
得票数 0
13
回答
如何跳过星火中CSV文件
的
标题
?
、
、
假设我为一个
Spark
上下文提供了三个要读取
的
文件路径,并且每个文件在第一
行
中都有一个模式。我们如何从标头跳过模式
行
?val
rdd
=sc.textFile("file1,file2,file3") 现在,我们如何从这个
rdd
跳过头
行
?
浏览 8
提问于2015-01-09
得票数 74
回答已采纳
1
回答
利用apache和scala对数据进行预处理
、
、
我对
spark
和scala非常陌生,因此我有一些问题涉及到使用
spark
进行数据预处理和使用rdds。我正在做一个小项目,我想用火花实现一个机器学习系统。使用算法是可以
的
,我认为,但我在数据预处理方面有问题。我有一个包含30列和大约100万
行
的
数据集。"_txt“结尾
的
所有列 我知道我不能
删除
浏览 3
提问于2015-07-21
得票数 3
回答已采纳
4
回答
如何从星火中
的
RDDs和DataFrames中过滤?
、
、
、
mobile" 1595"2015-03-16T00:19:39" "desktop" 2460
RDD
2.first() //returns: "2015-03-16T00:09:55" "mob
浏览 3
提问于2016-02-08
得票数 2
回答已采纳
1
回答
如何将
RDD
拆分为多个(较小
的
)
RDD
,每个
RDD
的
行数最多,并且不使用ID列
、
、
最
相似的是这个:我
浏览 8
提问于2015-03-23
得票数 3
回答已采纳
1
回答
如何从目录中读取所有文件并并行执行操作?
、
、
假设我在目录中有一些文件,我想读取每个文件,并从文件中提取文件名和第一
行
(即
标题
)进行一些验证。我们如何在
spark
中做到这一点(使用python)。input_file = sc.textFile(sourceFileDir)目前,我正在使用for循环执行这些要求(上面提到
的
浏览 11
提问于2018-01-22
得票数 1
回答已采纳
1
回答
Spark
/Scala:无法进行
RDD
到DF
的
转换
、
、
、
、
我是scala(2.11)和
spark
(1.6.0)
的
新程序员,正在尝试将
RDD
转换为没有
spark
-csv包
的
DF (为了练习,但也是因为一些技术问题)。在阅读了
Spark
的
入门指南和stackoverflow
的
所有相关帖子后,我不知道如何让一些方法(4)对我
有效
,我也不知道为什么-only one:前三个方
浏览 0
提问于2017-01-05
得票数 1
3
回答
从缓存中丢弃
spark
数据帧
、
、
我使用
的
是带有python api
的
Spark
1.3.0。在转换巨大
的
数据帧时,我缓存了许多DFs以加快执行速度;df2.cache() 一旦某些数据帧
的
使用结束,不再需要,我如何从内存中
删除
DF (或取消缓存??)?例如,在整个代码中都使用df1,而将df2用于很少
的
转换,此后再也不需要它了。我想强制
删除
df2以释放更多
的
内存空间。
浏览 2
提问于2015-08-26
得票数 39
2
回答
为什么列表应该先转换为
RDD
,然后再转换为Dataframe?有没有办法把list转换成dataframe?
、
、
、
我是
spark
的
新手,我有一些简单
的
问题。我想使用prefixspan
的
方法,但它只支持数据集和数据帧。因此,我将list转换为
rdd
,然后将其转换为dataframe。但是为什么list要先转换成
rdd
呢?为什么列表不能直接转换为dataframe?data = [Row([[1, 2], [3]]), Row([[1], [3, 2], [2]]), Row([[1, 2], [5]]), Row([[6]])]
rdd
浏览 71
提问于2021-09-28
得票数 0
1
回答
使用Scala/
Spark
列出目录中
的
文件(包括文件信息)
、
、
、
我是Scala/
Spark
的
新手,希望你们能帮助我。我想在一个hdfs
的
目录中获取在某个时间戳之后创建
的
文件,以便在Zeppelin中进行一点监控。我发现这对我来说很
有效
,可以获得我需要
的
所有信息: val fs = FileSystem.get(new Configuration()) val dir: String = "some/hdfs/path中创建一个DataFrame,每个文件都有一
行
信息(或者至少上面提到
的
浏览 18
提问于2020-12-10
得票数 1
回答已采纳
2
回答
如何将
RDD
[CassandraRow]转换为DataFrame?
、
、
、
、
(" ")).map(x =>(x(1))).toDF("ondate")正如您所看到
的
,我首先将cassandraRow
rdd
转换为string,然后映射到我想要
的
格式。我发现这个方法变得很复杂,因为
rdd
包含多个颜色,而不是一个(createdon),
如
示例所示。scalaVer
浏览 5
提问于2017-05-30
得票数 0
回答已采纳
3
回答
将数据帧中
的
向量列转换回数组列
、
、
我有一个包含两列
的
数据帧,其中一列(称为dist)是一个密集向量。如何将其转换回整数数组列。---++---+-----+|2.0|[4.0]||4.0|[8.0]|我尝试使用以下udf
的
几个变体
浏览 2
提问于2016-03-08
得票数 6
回答已采纳
1
回答
在pySpark中,如何
有效
地替换字符串数据帧中多个正则表达式模式
的
所有实例?
、
、
、
我需要从包含字符串
的
列中
删除
每个名称。一个示例字符串是“John to to the park”,我需要将“John”从其中
删除
,理想情况下只需替换为“name”即可。在'John and Mary to to market‘
的
情况下,输出将是'NAME and NAME to market’。 为了支持这一点,我有一个
最
频繁出现
的
20k名称
的
有序列表。= df.
rdd
.map(lambda line: removeNames(li
浏览 23
提问于2019-05-30
得票数 0
7
回答
从
spark
dataframe获取特定
行
、
scala
spark
数据帧中有没有df[100, c("column")]
的
替代品?我想从
spark
data frame
的
一列中选择特定
的
行
。例如,上述R等效代码中
的
100th
行
浏览 613
提问于2016-02-07
得票数 45
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
网飞版《三体》用最“有效”和“省事”的方式来讲故事,一如既往的夹带私货
深入浅出Spark(二):血统(DAG)
Spark SQL,DataFrames 以及 Datasets 编程指南
大数据之谜Spark基础篇,Spark RDD内幕详解
Spark 核心编程RDD的使用(1)
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券