腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8514)
视频
沙龙
1
回答
Spark
.
csv
可变
列
数
、
、
我有一个这样的案例类:我想把它保存到一个.
csv
文件中 .coalesce(1) .option("header", "true") .save("res/output/resul
浏览 19
提问于2017-02-13
得票数 1
回答已采纳
1
回答
Spark
csv
读取器的RDD字符串
、
我想用
spark
CSV
阅读器来阅读RDD[String]。我这样做的原因是,在使用
CSV
阅读器之前,我需要过滤一些记录。val fileRDD: RDD[String] =
spark
.sparkContext.textFile("file") 我需要使用
spark
CSV
阅读器来读取fileRDD。我已经研究了我们在
spark
CSV
中的选项,但没有找到任何选项。
spark
.read.
csv
(
浏览 12
提问于2019-05-30
得票数 0
1
回答
如何将具有大量列计数的
csv
文件导入ApacheSpark2.0
、
、
、
、
当我在pyspark中运行以下代码时 csvdata =
spark
.read.
csv
("gs://[bucket]/
csv
/*.
csv
", header=True,mode="DROPMALFORMEDcom.univocity.parsers.common.TextParsingException: java.lang.ArrayIndexOutOfBoundsException - 20480 提示:已处理的
列
数
浏览 4
提问于2016-08-27
得票数 6
回答已采纳
1
回答
将
csv
文件与不匹配的
列
组合起来
、
、
、
、
我需要将多个
csv
文件合并到一个对象中(我假设是一个dataframe ),但是它们都有不匹配的
列
,如下所示:store_location_key | product_key | collector_key| sales | units | trans_keycollector_key | trans_dt | store_location_key |product_key | sales| units | trans_id 最重要的是,我需要这些文件与另外两个具有匹配
列
的<em
浏览 1
提问于2018-02-27
得票数 3
回答已采纳
1
回答
星星之火:用read.
csv
读取许多文件
、
、
、
read.
csv
使用 textFile 还是 wholeTextFiles ?
浏览 0
提问于2018-03-21
得票数 0
4
回答
带有标头的星火SQLContext查询
、
、
我使用SQLContext读取
CSV
文件,如下所示:
csv
`src/test/resources/afile.
csv
` WHERE firstcolumn=21") val df =
spark
.read
浏览 1
提问于2018-12-20
得票数 0
回答已采纳
1
回答
带有多字符分隔符的Apache火花数据文件
、
、
、
我有一个使用多字符分隔符的"
CSV
“文件,因此数据看起来类似于在Databricks内部的笔记本中,下面的代码会在第二行抛出错误(如下所示),其中它试图将dataframe df写入目标表: df =
spark
.read.
csv
(".../Test/MyFile.
csv
", sep="^|^,^|^", header="true", inf
浏览 1
提问于2022-05-12
得票数 0
1
回答
如何在不知道数据模式的情况下从文本文件将数据加载到
spark
数据中?
、
、
我在hadoop中有一个文本文件,我需要使用它的第二
列
使用对它进行排序。我正在使用数据框架,但我不确定它的
列
。它可能有动态
列
,这意味着我不知道
列
的确切数量。提前谢谢。
浏览 5
提问于2016-11-15
得票数 3
回答已采纳
1
回答
使用
spark
scala读取
列
值为空的
CSV
文件时出错
我正在尝试使用
spark
Scala分析
CSV
文件,但问题是我的
CSV
文件包含空值的
列
,所以当从
CSV
文件读取数据时,我得到的错误为java.lang.ArrayIndexOutOfBoundException:12 我在
CSV
文件中的总
列
数
是13,但有1
列
包含空值。
浏览 7
提问于2017-07-01
得票数 0
1
回答
尝试创建
列
超过255
列
的RDD时,Scala出现java异常
、
、
我有一个几乎有600
列
的大型数据集,但是,当我尝试创建DF时,它失败了 Exception in thread "main" java.lang.ClassFormatError: Too many arguments
浏览 142
提问于2018-06-01
得票数 0
2
回答
计算
spark
RDD或DataFrame中
列
之间的分隔符,并将行移动到单独的RDD或DataFrame
、
、
、
我是
spark
编程的新手,我正在将多个TSV.gz文件加载到RDD或Dataframes中。我想要计算加载后
列
之间的制表符数量,并根据以下条件将数据行移动到单独的RDD或dataframes。总
列
数
= 996If the number of tab counts <
浏览 0
提问于2019-02-06
得票数 0
1
回答
验证
CSV
文件PySpark
、
、
、
我正在尝试验证
csv
文件(每条记录的
列
数
)。根据下面的链接,在Databricks 3.0中有处理它的选项。df =
spark
.read .parquet("/input/parquetFile") 但是,我使用的是2.3版本的
spark
,不能使用该选项。df =
spark
.read.o
浏览 1
提问于2018-11-21
得票数 1
1
回答
Pandas read_
csv
-具有
可变
列
数
的行
、
、
我有一个
CSV
文件,其中的行具有
可变
的
列
数
(并且没有
列
标题)。例如,文件可以从23
列
的一些行开始,然后是83
列
的一些行,等等。现在,当read_
csv
()开始读取文件时,它会在读取前几行之后猜测
列
数
(我认为),所以如果开始的数据行比结束时短,我会得到下面的异常。有没有办法将参数传递给函数以将
列
数
设置为某个最大值?
浏览 1
提问于2015-06-25
得票数 1
1
回答
在apache上执行sql查询时执行arrayindexoutofbound异常
、
subscriber_type: String, zipcode: String) org.apache.
spark
.SparkException
浏览 0
提问于2018-03-07
得票数 0
回答已采纳
1
回答
用于从
csv
创建xml的linq
、
我看到了一个很棒的帖子: 我有一个
csv
文件,其
列
标题位于
csv
的第一行。我还希望linq语句能够处理长度
可变
的
列
数
。这样,如果添加了更多
列
,我就不必更改代码了。有没有办法做到这一点?如果元素是
列
标题(第一行)的名称就更好了。
浏览 2
提问于2010-07-04
得票数 1
回答已采纳
2
回答
如何在BASH中将
csv
文件读入二维数组?
、
、
、
如何在BASH中将
csv
文件读入二维数组?该脚本需要具有足够的动态性,它可以采用具有
可变
行数和
列
数
的
csv
文件。例如,如果我有一个
csv
文件,如下所示17 18 19AVERAGE STDEV MAX
浏览 2
提问于2010-06-11
得票数 2
回答已采纳
1
回答
在保存到
CSV
时,火花写入额外行
、
df =
spark
.read.parquet(parquet_path)>>> 1000000df_
csv
=
spark
.read.
csv
(
csv
_
浏览 6
提问于2022-05-05
得票数 0
回答已采纳
2
回答
在pyspark上创建新的架构或列名
、
、
、
/assets/"+filename, 当然,我会得到这个错误: 标题的长度= 278,
列
数
相同。所以,真正
浏览 0
提问于2017-08-31
得票数 0
1
回答
加载文件时使用Pyspark TextParsingException
、
、
我正在使用pyspark加载一个包含100万条记录的
csv
文件,但得到了错误。TextParsingException:分析的输入长度(1000001)超过了分析器设置中定义的最大字符
数
(1000000) input_df =
spark
.read.format('com.databricks.
spark
.
csv
').option("delimite
浏览 0
提问于2018-03-05
得票数 0
1
回答
加载Dataframe时从文件中移除
CSV
列
、
、
、
当通过databricks加载
csv
时,第2行第4
列
下面没有加载。
csv
的no
列
随行而变化。在test_01.
csv
中,s,d,a,d通过databricks加载上述
csv
文件,如下所示 >>> df2 = sqlContext.read.format("com.databricks.
spark
.
csv
sqlContext.read.format("com.databricks.
sp
浏览 0
提问于2019-01-31
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何使用python的csv模块提取一列数据
一文读懂 PySpark 数据框
一文读懂PySpark数据框
盘点csv文件中工作经验列工作年限数字正则提取的四个方法
Vlookup函数的最牛用法:隔列取数
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券