腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如
何在
spark
中
使用
scala
从
多个
文件
中
删除
前
几行
/
头
、
、
我能够
使用
下面的代码
删除
单个
文件
的
前
几行
:
删除
前
5行:
scala
> valData = file.mapPartitionsWithIndex{ (idx, iter) => if (idx == 0) iter.drop(
浏览 54
提问于2016-08-02
得票数 1
回答已采纳
1
回答
从
星火中的
多个
文件
夹加载
多个
文件
、
我有一个数据集,在主
文件
夹
中
包含
多个
文件
夹,每个
文件
夹包含
多个
CSV
文件
。每个CSV
文件
都有三列,名为X、Y和Z。我想创建一个dataframe,以便
前
三列是三列X,Y,Z。我还想要另外两列,例如第四列包含读取CSV
文件
的
文件
夹的名称。第五列包含CSV
文件
的名称。如
何在
Scala
和
Spark
中
创建此数据?
浏览 5
提问于2020-04-15
得票数 5
回答已采纳
2
回答
Spark
Dataset加载
多个
CSV
文件
,如果所有
文件
中
的标
头
不相同,则报告不匹配
、
、
、
、
我正在尝试
使用
spark
2.1.0 API将
多个
csv
文件
从
hdfs目录加载到
Spark
DataSet
中
: val csvData =
spark
.read.option("header", "true
Spark
只
从
第一个
文件
中选取头部,并将其生成为DataSet的架构,忽略其余csv
文件
的头部。报告与csv
文件
包含更多或更少或不
浏览 0
提问于2017-11-06
得票数 1
1
回答
分区JDBC在
Spark
中
写入
、
、
、
我正在一个
Scala
+
Spark
项目中工作,在该项目中,我们将数据
从
文件
加载到PostgreSQL
中
。它在独立模式下
使用
jdbc.write在本地运行良好,测试数据很小。但是由于生产数据是巨大的,我想
使用
一个集群,每个执行者拥有
多个
工作人员和一个逻辑处理器核心。谢谢!PS:
使用
Scala
2.13.9和
Spark<
浏览 4
提问于2022-10-12
得票数 1
回答已采纳
3
回答
字符串列包含通过
spark
scala
进行精确匹配的单词
、
、
我有两个数据帧,第一个数据帧包含实际数据(
从
CSV
文件
读取),第二个数据帧包含一个具有
多个
关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方):数据帧-2:我想要的输出:我在这里
使用
spark
scala
。我想要一个与dataframe-1
中
的dataframe-2完全匹配的单词。我
使用
了like、rlike、contains等函数,但它没有给出我想要的输出。有人知道如
何在
<em
浏览 1
提问于2021-02-12
得票数 0
1
回答
如
何在
运行
scala
的Bluemix
Spark
notebook
中
运行shell命令?
、
、
有没有办法在运行
scala
内核的Bluemix
Spark
笔记本上运行shell命令?在Bluemix
Spark
python笔记本
中
,您可以简单地在shell命令
前
加上一个"!“前缀。似乎没有任何线条或外壳魔法(例如,在
scala
内核
中
定义以提供类似功能。例如,如何
从
scala
notebook中下载用于
使用
wget进行分析的
文件
?
浏览 0
提问于2016-05-11
得票数 3
2
回答
使用
spark
优化S3到S3的转换
、
、
、
、
我正在学习
spark
/
scala
,并尝试
使用
scala
语言尝试下面的场景。场景:从一个S3存储桶
文件
夹复制
多个
文件
到另一个S3存储桶
文件
夹。到目前为止所做的事情: 1)
使用
亚马逊网络服务S3开发工具包和
scala
:-
从
S3源位置创建
文件
列表。-遍历列表,传递步骤1
中
的源和目标S3位置,并
使用
S3接口copyObject将这些
文件
浏览 0
提问于2018-04-15
得票数 1
1
回答
从
HDInsight集群
头
节点运行
spark
应用程序
、
、
、
、
我正在尝试
使用
命令
从
azure HDInsight集群的
头
节点运行
scala
应用程序。<storageaccountname>/sample.sas7bdat wasbs://containername@<storageaccountname>/sample.csv com.test.
spark
.Wordcount由:
scala
.collection.immutable.List$SerializationProxy :无
浏览 1
提问于2017-03-27
得票数 0
2
回答
如何跳过Excel工作表的
前
几行
?
、
、
使用
openpyxl,我尝试
从
第5行读取一些
文件
。
文件
的
前
四行是标题。然后,主要内容有一个不同的格式与标题。< index < stop: print c.value 如果
删除
前
四行但是我有几百个这样的
文件
,每个
文件
都有一个四行的
头
。
从
文件</em
浏览 19
提问于2015-03-08
得票数 2
1
回答
使用
scala
/
spark
创建单元视图
、
、
如何以编程方式
使用
spark
和
scala
在Hive
中
创建
多个
表视图?
从
位于单元
中
的表
中
创建一个视图。
浏览 0
提问于2018-08-08
得票数 1
1
回答
使用
scala
和
spark
组合csv
文件
时,
头
写了多次
、
目前,我正在尝试将
多个
csv
文件
合并到一个
文件
中
,
文件
头完全相同,但数据不同,它们被命名为- data__1,data__2。 } getData("data*") .write.csv("file:/path
浏览 3
提问于2022-06-13
得票数 0
2
回答
将
文件
读取并附加到
spark
数据
文件
中
我已经创建了一个空的dataframe,并开始添加它,通过读取每个
文件
。但其中一个
文件
的列数比
前
一个
文件
多。如何仅为所有其他
文件
选择第一个
文件
中
的列?= SparkSession.builder.\ config("
spark
.jars.packages","saurfang:
spark
-sas7bdat:2.0.0-df_
spark
=
spark</
浏览 1
提问于2019-09-06
得票数 3
回答已采纳
1
回答
如何捕捉oozie
spark
输出
、
、
有没有办法捕获
spark
的输出,然后将其输入到shell
中
?我们目前正在
使用
scala
创建jar
文件
,并希望我们的
spark
输出成为shell输入。我的想法是
使用
${wf:actionData('
spark
-XXXX')'var'}我只是不知道如
何在
spark
中
实现它。所以基本上,我的问题是如
何在
oozie
中
从<
浏览 0
提问于2017-05-24
得票数 2
3
回答
在
中
读取没有标
头
的蜂巢表
、
、
from employee;abc 19 dapqr 30 er当我在“火花”
中
读到这篇文章时:df.show()|name| age| role|| da|| pqr| 30| er|+
浏览 2
提问于2017-11-22
得票数 4
回答已采纳
4
回答
eclipse(
使用
scala
环境设置):对象apache不是包org的成员
、
、
我搜索了这个错误,它显示
spark
jars没有被导入。所以,我也导入了"
spark
-assembly-1.4.1-hadoop2.2.0.jar“。但同样的error.Below是我真正想要运行的: object ABC { //
Scala
Main Method println("
Spark
浏览 0
提问于2016-04-19
得票数 3
1
回答
使用
地板-mr在
Scala
无火花
、
、
我试图在
Scala
中
读取一个.parquet
文件
,而不
使用
Spark
。 我找到了,但到目前为止还没有找到如何
使用
从
文件
中
实际读取(包括获取模式)。有些东西像RecordReader.java和RecordReaderImplementation.java (扩展了RecordReader),但是我很难理解如
何在
Scala
代码中
使用
它们。我对
Scala
和Parque
浏览 16
提问于2016-06-10
得票数 1
回答已采纳
1
回答
星火生成路径是交叉编译的不兼容版本的
Scala
(2.11.0)
、
、
我正在观察
Scala
中
的一些构建错误。虽然我知道如何修复,但我仍然不明白它是如
何在
引擎盖下工作的。我首先阐述我的情况,并在最底层提出问题。在
scala
中
,我需要选择2.12版本的
scala
这最终导致了许多构建错误(为了保存位置,只在这里发布一些错误):
从
错误
中
,我得到了尝试
scala
2.11的想法。错误消息中提到的jar
文件
都来自
Spark
2.4.5安装
文件</em
浏览 5
提问于2020-06-09
得票数 0
回答已采纳
1
回答
如
何在
pyspark中将第一行作为标题读取文本
文件
作为
spark
context
、
在
spark
context
中
读取文本
文件
后得到的数据帧| _1| _2| _3||name|age|salary|+---+------+| bum| 30| 1500|+----+---+------+## from
spark
context df_txt=
spark
.sparkContext.textFile("&
浏览 0
提问于2020-10-24
得票数 1
4
回答
无法运行
从
Scala
文件
创建的jar
文件
、
、
、
这是我用
Scala
编写的代码。 println("Hello World from
Scala
!")这是我的build.sbt。name := "hello-world"scalaVersion := "2.11.5"这是我运行的创建jar
文件
的命令sbt package 我的问题是,在t
浏览 0
提问于2015-06-02
得票数 2
回答已采纳
2
回答
Apache不能反序列化dataset:"NoSuchMethodError“
、
、
、
我正在尝试
使用
(0.7.2,在Mac上本地运行的.NET安装)来探索
从
s3桶加载的数据。UDPATE2:根据我
从
工件列表
中
删除
的jackson库,因为它们现在已经在jars/
文件
夹中了--现在唯一添加的工件是上面的aws构件。然后,通过在笔记本
中
输入以下内容(
如
所示),清理类路径:z.reset()val p =
spark
.read.textFile
浏览 2
提问于2017-08-20
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Spark将本地文件读取并封装为DataFrame的完整指南
大数据之脚踏实地学11-Spark神器的安装
python3,hadoop,spark安装搭建流程小记
Apache Spark框架下,Python与Scala谁更胜一筹?
年薪50万+的大数据工程师需要具备哪些技能?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券