如何在spark (java)中迭代数据集的所有列

、、、

我有一个包含许多列(实际上是11000列，但也可能更多)和大约40000行的数据集。我尝试做的是将UDF应用于所有这些列(此UDF只是通过用字符替换列的字符串来缩短它们)。我的方法工作得很好，但效率确实很低，因为我使用for循环来迭代所有列。有没有机会使用foreach()函数或类似的函数来并行执行所有11000列</e

浏览 5提问于2019-08-13得票数 1

3回答

是否有方法在UDF中添加一个新列(在java星星之火中)

、、

我有一个火花数据集的列(在java中)，我希望这个列的所有值都成为新列的列名(新列可以用一个常量值填充)。： static SparkSession spark = SparkSession.builder().appName("Java")，有时我得到了正确的

浏览 1提问于2019-08-08得票数 1

回答已采纳

2回答

用java实现spark* dataframe中两列的差异*

、

我尝试了以下帖子中提到的选项，但在java - 中不起作用请让我知道如何在Java中使用Spark找出数据集两列之间的差异。

浏览 2提问于2018-06-14得票数 1

1回答

在Apache Spark中使用Java对数据集的单个列应用函数

、、、

假设我有一个数据集： Dataset<Row> sqlDF = this.spark.sql("SELECT first_name, last_name, age from persons"; 这将返回一个包含三列的我想要应用一个函数，该函数向age列添加5，并返回一个新数据集，该数据集与原始数据集具有相同的列，但

浏览 18提问于2019-09-22得票数 0

回答已采纳

1回答

相似数据集上的联合操作

我想对具有相同结构(相同名称和列类型)的小型数据集执行联合操作，以获得一个大型数据集。如何在JAVA / SPARK中做到这一点？PS :我尝试过使用union()，但是这个方法只接受一个数据集，而不接受我想要的数据集联合列表。谢谢

浏览 9提问于2021-04-17得票数 1

回答已采纳

3回答

在Spark2.0中从用逗号分隔的字符串行中获取不同的项

、、、

我正在使用Spark2.0来分析一个数据集。有一列包含如下字符串数据：A,BB我希望得到一个包含列中所有不同项的JavaRDD，如下所示：B如何在火花中有效地做到这一点？我在Java中使用Spark，但是Scala示例或指针是有用的。编辑:我尝试过使用flatMap，但是我的实现非常慢。

浏览 6提问于2016-10-13得票数 2

回答已采纳

1回答

Java Spark删除重复项/空值并保留顺序

、

我有下面的Java Spark数据集/dataframe。 Col_1 Col_2 Col_3 ...A 1 1B 2 2C 1 NULL 这个数据集中有将近25列，我必须删除那些在Col_1上重复的记录。如果第二个记录为NULL，则必须删除NULL (如COl_1 = A)，如果有多个有效值(如Col_1 =B

浏览 17提问于2020-11-25得票数 0

回答已采纳

1回答

避免在Apache中使用Java数据结构以避免复制数据

、、

我有一个包含大约1亿条记录(~25 100，~5列)的单表的MySQL数据库。使用Apache，我通过JDBC连接器提取这些数据，并将其存储在DataFrame中。我已经在Spark的Java中实现了这一点，但是它太慢了(就我的目的而言)，因为我将大量数据从DataFrame复制到java.util.Vector和java.util.List (

浏览 2提问于2016-06-02得票数 0

回答已采纳

1回答

在UDF如何通过Row？

、、

我正在用Java编写一个UDF。 UDF1<Dataset<Row>,String> myUDF = new UDF1<Dataset<Row>,String>() { }

浏览 0提问于2018-12-16得票数 1

1回答

如何在Spark* Java中将带有值的列添加到新数据集中？*

、、、、

因此，我从java Spark API创建了一些数据集。这些数据集是使用spark.sql()方法从hive表填充的。因此，在执行了一些sql操作(比如joins)之后，我就有了一个最终的数据集。我想要做的是向最终数据集中添加一个新列，该数据集中的所有行的值都为"

浏览 1提问于2017-07-07得票数 8

回答已采纳

0回答

spark如何读取文本格式的文件

、、、

我有一个文本格式(.gz)的S3数据集，我正在使用spark.read.csv将文件读入spark。对于这种情况，spark是扫描整个100 of的数据，还是只智能地过滤这5列，而不扫描所有<

浏览 7提问于2017-01-05得票数 0

1回答

使用Spark并行缓存和查询数据集

、、

我有一个需求，我想缓存一个数据集，然后通过在该数据集上并行地触发"N“个查询来计算一些度量，所有这些查询都计算类似的度量，只是过滤器会改变，我想并行运行这些查询，因为响应时间非常重要，而且我想要缓存的数据集总是小于一个GB的大小。我知道如何在Spark中缓存数据集，然后再对其进行查询，但如果必须在同一数据集中并行运行查

浏览 1提问于2017-12-09得票数 3

回答已采纳

1回答

我正在从Kafka读取数据并加载到数据仓库中，从一个Kafka主题中我正在创建一个数据框架，在应用了所需的转换之后，我正在从中创建多个DFs并将这些DFs加载到不同的表中，但这个操作是按顺序进行的。| | |-- primary: boolean (nullable = true) 我分别为attribute1Formatted和attribute2Formatted创建了两个不同的数据框，而且这些DFs

浏览 1提问于2021-07-26得票数 1

1回答

Spark:按键迭代数据集的子集(where子句)

、、、、

我在一个数据集(ds_ids)中有一堆I，假设我的数据集如下所示：13IDprocessMethod的方法(按ID) (并行)处理此数据集的子集，例如： ID | Date

浏览 1提问于2018-08-01得票数 0

1回答

某些列的PySpark更新值

、、、

我正在努力找出更新多列值的最佳方法，但返回整个数据集-星星之火变化迅速，许多答案似乎已经过时。我看到了一个()功能，但这似乎是一种“过时”的方法--而且我已经将底层数据集按列分开，所以我不认为我应该回到RDD。我的问题是：如果是的话，我如何一次将UDF应用于多个列?由于我将迭代行，所以最好的查询设

浏览 1提问于2017-05-10得票数 0

回答已采纳

2回答

如何在Spark* Java中遍历/迭代数据集？*

、、、、

我正在尝试遍历数据集来执行一些字符串相似度计算，比如Jaro winkler或Cosine相似度。我将我的数据集转换为行列表，然后使用for语句遍历，这不是一种有效的spark方式。因此，我期待着在Spark中有更好的方法。").setMaster("local[*]")); Spark

浏览 0提问于2017-03-13得票数 7

回答已采纳

1回答

在Java中尝试在Spark* Dataset中添加列时出现null指针异常*

、、、

我正在尝试迭代java中的数据集行，然后访问特定的列，以找到作为键存储在JSON文件中的值，并获得它的值。找到的值需要存储为所有行的该行中的新列值。我看到从JSON文件中获得cluster_val不是空的，但是当我尝试将它添加为一个列时，我

浏览 91提问于2018-10-09得票数 0

2回答

星火数据集在DataFrame上的缺点

我知道Dataset (类型安全等)的优点，但我找不到任何与火花数据集限制相关的文档。是否有任何特定的场景，其中火花Dataset是不推荐的和更好地使用DataFrame。目前，我们所有的数据工程流程都在使用Spark DataFrame。对于我们所有的新流程，我们都想利用Dataset。因此，了解Dataset的所有局限性/缺点将对我们有所帮助。编辑：--这与不一样，

浏览 4提问于2019-03-20得票数 17

3回答

在Hadoop上使用MapReduce还是Spark进行批处理？

、、、

我知道MapReduce是一个在Hadoop上进行批处理的很好的框架。但是，Spark也可以用作Hadoop上的批处理框架，与MapReduce相比，它提供了可伸缩性、容错性和高性能。那么，我想知道在Hadoop上使用Spark作为批处理框架的当前挑战是什么？有什么想法吗？

浏览 2提问于2014-10-31得票数 5

2回答

激发如何在映射中拆分并迭代每个元素

我的输入集如下所示：101,John,CEO,20000,CS如何迭代和打印所有的值

浏览 2提问于2016-05-17得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

是否有方法在UDF中添加一个新列(在java星星之火中)

用java实现spark* dataframe中两列的差异*

在Apache Spark中使用Java对数据集的单个列应用函数

相似数据集上的联合操作

在Spark2.0中从用逗号分隔的字符串行中获取不同的项

Java Spark删除重复项/空值并保留顺序

避免在Apache中使用Java数据结构以避免复制数据

在UDF如何通过Row？

如何在Spark* Java中将带有值的列添加到新数据集中？*

spark如何读取文本格式的文件

使用Spark并行缓存和查询数据集

火花流|将不同的数据帧并行写入多个表

Spark:按键迭代数据集的子集(where子句)

某些列的PySpark更新值

如何在Spark* Java中遍历/迭代数据集？*

在Java中尝试在Spark* Dataset中添加列时出现null指针异常*

星火数据集在DataFrame上的缺点

在Hadoop上使用MapReduce还是Spark进行批处理？

激发如何在映射中拆分并迭代每个元素

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐