Spark .csv可变列数

、、

我有一个这样的案例类：我想把它保存到一个.csv文件中 .coalesce(1) .option("header", "true") .save("res/output/resul

浏览 19提问于2017-02-13得票数 1

回答已采纳

1回答

Spark csv读取器的RDD字符串

、

我想用spark CSV阅读器来阅读RDD[String]。我这样做的原因是，在使用CSV阅读器之前，我需要过滤一些记录。val fileRDD: RDD[String] = spark.sparkContext.textFile("file") 我需要使用spark CSV阅读器来读取fileRDD。我已经研究了我们在spark CSV中的选项，但没有找到任何选项。spark.read.csv(

浏览 12提问于2019-05-30得票数 0

1回答

如何将具有大量列计数的csv文件导入ApacheSpark2.0

、、、、

当我在pyspark中运行以下代码时 csvdata = spark.read.csv("gs://[bucket]/csv/*.csv", header=True,mode="DROPMALFORMEDcom.univocity.parsers.common.TextParsingException: java.lang.ArrayIndexOutOfBoundsException - 20480 提示:已处理的列数

浏览 4提问于2016-08-27得票数 6

回答已采纳

1回答

将csv文件与不匹配的列组合起来

、、、、

浏览 1提问于2018-02-27得票数 3

回答已采纳

1回答

星星之火:用read.csv读取许多文件

、、、

read.csv 使用 textFile 还是 wholeTextFiles ？

浏览 0提问于2018-03-21得票数 0

4回答

带有标头的星火SQLContext查询

、、

我使用SQLContext读取CSV文件，如下所示： csv`src/test/resources/afile.csv` WHERE firstcolumn=21") val df = spark.read

浏览 1提问于2018-12-20得票数 0

回答已采纳

1回答

带有多字符分隔符的Apache火花数据文件

、、、

我有一个使用多字符分隔符的"CSV“文件，因此数据看起来类似于在Databricks内部的笔记本中，下面的代码会在第二行抛出错误(如下所示)，其中它试图将dataframe df写入目标表： df = spark.read.csv(".../Test/MyFile.csv", sep="^|^,^|^", header="true", inf

浏览 1提问于2022-05-12得票数 0

1回答

如何在不知道数据模式的情况下从文本文件将数据加载到spark数据中？

、、

我在hadoop中有一个文本文件，我需要使用它的第二列使用对它进行排序。我正在使用数据框架，但我不确定它的列。它可能有动态列，这意味着我不知道列的确切数量。提前谢谢。

浏览 5提问于2016-11-15得票数 3

回答已采纳

1回答

使用spark scala读取列值为空的CSV文件时出错

我正在尝试使用spark Scala分析CSV文件，但问题是我的CSV文件包含空值的列，所以当从CSV文件读取数据时，我得到的错误为java.lang.ArrayIndexOutOfBoundException:12 我在CSV文件中的总列数是13，但有1列包含空值。

浏览 7提问于2017-07-01得票数 0

1回答

尝试创建列超过255列的RDD时，Scala出现java异常

、、

我有一个几乎有600列的大型数据集，但是，当我尝试创建DF时，它失败了 Exception in thread "main" java.lang.ClassFormatError: Too many arguments

浏览 142提问于2018-06-01得票数 0

2回答

计算spark RDD或DataFrame中列之间的分隔符，并将行移动到单独的RDD或DataFrame

、、、

我是spark编程的新手，我正在将多个TSV.gz文件加载到RDD或Dataframes中。我想要计算加载后列之间的制表符数量，并根据以下条件将数据行移动到单独的RDD或dataframes。总列数= 996If the number of tab counts <

浏览 0提问于2019-02-06得票数 0

1回答

验证CSV文件PySpark

、、、

我正在尝试验证csv文件(每条记录的列数)。根据下面的链接，在Databricks 3.0中有处理它的选项。df = spark.read .parquet("/input/parquetFile") 但是，我使用的是2.3版本的spark，不能使用该选项。df = spark.read.o

浏览 1提问于2018-11-21得票数 1

1回答

Pandas read_csv -具有可变列数的行

、、

我有一个CSV文件，其中的行具有可变的列数(并且没有列标题)。例如，文件可以从23列的一些行开始，然后是83列的一些行，等等。现在，当read_csv()开始读取文件时，它会在读取前几行之后猜测列数(我认为)，所以如果开始的数据行比结束时短，我会得到下面的异常。有没有办法将参数传递给函数以将列数设置为某个最大值？

浏览 1提问于2015-06-25得票数 1

1回答

在apache上执行sql查询时执行arrayindexoutofbound异常

、

subscriber_type: String, zipcode: String) org.apache.spark.SparkException

浏览 0提问于2018-03-07得票数 0

回答已采纳

1回答

用于从csv创建xml的linq

、

我看到了一个很棒的帖子：我有一个csv文件，其列标题位于csv的第一行。我还希望linq语句能够处理长度可变的列数。这样，如果添加了更多列，我就不必更改代码了。有没有办法做到这一点？如果元素是列标题(第一行)的名称就更好了。

浏览 2提问于2010-07-04得票数 1

回答已采纳

2回答

如何在BASH中将csv文件读入二维数组？

、、、

如何在BASH中将csv文件读入二维数组？该脚本需要具有足够的动态性，它可以采用具有可变行数和列数的csv文件。例如，如果我有一个csv文件，如下所示17 18 19AVERAGE STDEV MAX

浏览 2提问于2010-06-11得票数 2

回答已采纳

1回答

在保存到CSV时，火花写入额外行

、

df = spark.read.parquet(parquet_path)>>> 1000000df_csv = spark.read.csv(csv_

浏览 6提问于2022-05-05得票数 0

回答已采纳

2回答

在pyspark上创建新的架构或列名

、、、

/assets/"+filename, 当然，我会得到这个错误：标题的长度= 278，列数相同。所以，真正

浏览 0提问于2017-08-31得票数 0

1回答

加载文件时使用Pyspark TextParsingException

、、

我正在使用pyspark加载一个包含100万条记录的csv文件，但得到了错误。TextParsingException:分析的输入长度(1000001)超过了分析器设置中定义的最大字符数(1000000) input_df = spark.read.format('com.databricks.spark.csv').option("delimite

浏览 0提问于2018-03-05得票数 0

1回答

加载Dataframe时从文件中移除CSV列

、、、

当通过databricks加载csv时，第2行第4列下面没有加载。csv的no列随行而变化。在test_01.csv中，s,d,a,d通过databricks加载上述csv文件，如下所示 >>> df2 = sqlContext.read.format("com.databricks.spark.csvsqlContext.read.format("com.databricks.sp

浏览 0提问于2019-01-31得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark csv读取器的RDD字符串

如何将具有大量列计数的csv文件导入ApacheSpark2.0

将csv文件与不匹配的列组合起来

星星之火:用read.csv读取许多文件

带有标头的星火SQLContext查询

带有多字符分隔符的Apache火花数据文件

如何在不知道数据模式的情况下从文本文件将数据加载到spark数据中？

使用spark scala读取列值为空的CSV文件时出错

尝试创建列超过255列的RDD时，Scala出现java异常

计算spark RDD或DataFrame中列之间的分隔符，并将行移动到单独的RDD或DataFrame

验证CSV文件PySpark

Pandas read_csv -具有可变列数的行

在apache上执行sql查询时执行arrayindexoutofbound异常

用于从csv创建xml的linq

如何在BASH中将csv文件读入二维数组？

在保存到CSV时，火花写入额外行

在pyspark上创建新的架构或列名

加载文件时使用Pyspark TextParsingException

加载Dataframe时从文件中移除CSV列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐