迭代遍历spark dataframe并为每行连接两列

我正在迭代spark datframe，我想为每一行连接两列。

浏览 38提问于2019-09-28得票数 0

1回答

scala中的withColumn函数没有将contstant值添加到列

、

这是我的代码： val df=spark.emptyDataFramemodify2.show(false) 它返回一个空的

浏览 50提问于2021-05-10得票数 1

1回答

Pandas创建单独的df遍历现有的df行

、、

23, 4, 5], 'id': [234, 745, 732, 245, 232]}df 我如何迭代pandas df中的每一行，并根据每行创建一个单独的df？例如，我可以如下所示遍历每一行并打印animal列，但最终我还是要弄清楚如何遍历每一行并为每一行创建一个单独的名称，而df名称将

浏览 16提问于2019-11-01得票数 0

回答已采纳

1回答

Spark access行对象值

、、

我想按分区迭代一个数据帧，并为每个分区迭代它的所有行，并为它们创建一个deleteList，其中将包含每行的HBase的delete对象。我在Java中使用Spark和HBase，并用以下代码创建了一个Row对象： df.foreachPartition((ForeachPartitionFunction<Row> iterator ->而df有一个名为"hbase_key“的列。

浏览 38提问于2021-10-11得票数 0

回答已采纳

2回答

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。我想要生成一个列，它遍历ints列表并为每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除，在本例中为[1,2,3]。对于每次迭代，我都希望将结果附加到原始的PySpark DataFrame中，以运行一些查询，使用这个“过滤”

浏览 9提问于2017-01-12得票数 1

回答已采纳

2回答

遍历数据表的行。

、、、

因为我对Scala有点陌生，所以我发现很难遍历Dataframe。我的dataframe包含两个列，一个是path，另一个是ingestiontime。例子-现在，我想迭代这个数据，并使用Path和ingestiontime列中的数据来准备一个Hive查询并运行它，这样运行的查询看起来就像- ALTER TABLE <hiveTableName> ADD PARTITON (ingestiontime=<Ingestiontime_From

浏览 2提问于2020-07-22得票数 0

回答已采纳

1回答

星星之火SQL数据集:将多个数组列拆分为单个行

、、、

我对Spark和Dataset / Dataframe很陌生。我希望按位置逐行遍历数组，并为数组中的每一组对应位置条目输出一个新行。您可以从下面的两个图表中看到如何。---+-----+| 2|[ccc,ddd]|[3,4]|预期输出数据集我需要如下所示的输出，将数据

浏览 0提问于2020-03-17得票数 1

1回答

如何在两个不同的DataFrames中添加相应的整数值

、

我的代码中有两个DataFrames，维数完全相同，假设是1,000,000×50。我需要在两个数据文件中添加相应的值。如何实现这一目标。一个选项是添加另一个带有ids的列，union和DataFrames，然后使用reduceByKey。但还有其他更优雅的方式吗？谢谢。

浏览 5提问于2017-03-09得票数 0

回答已采纳

1回答

迭代的列并更新指定的值

、、、

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。import org.apache.spark.sql.functions._ val a:DataFrame = spark.sql(s"select * fro

浏览 0提问于2018-05-06得票数 0

回答已采纳

1回答

Pyspark -在空数据帧上调用时withColumn不工作

、

我为一些需求创建了一个空的dataframe，当我在它上面调用withColumn函数时，我得到了列，但数据是null，如下所示-df = sqlContext.createDataFrame

浏览 17提问于2018-07-26得票数 2

回答已采纳

3回答

列出pandas数据框列中的所有单词

、

我有以下数据帧：我想用"c1“一栏中包含的所有单词列一张表生成的列表应如下所示：我以为我可以迭代

浏览 0提问于2020-02-25得票数 0

1回答

正在将pyspark数据帧写入文本文件

、

我有一个从sql server中的一个表创建的pyspark数据框架，我对它做了一些转换，现在我要将它转换为动态数据框架，以便能够将其保存为s3存储桶中的文本文件。当我将数据帧写入文本文件时，我将向该文件添加另一个头文件。AT_DATE | AMG_INS | MONTHLY_AVG 我想在上面添加另一个头文件，当我保存我的文本文件时，我需要添加另一行，如下所示： AT_DATE,AMG_INS,MONTHL

浏览 0提问于2021-04-23得票数 0

1回答

从一个数据中获取值并将该值传递到SqlContext的循环中

想尝试做这样的事情：val id_list = sqlContext.sql("select distinctid_list.registerTempTable("ID_LIST") id_list

浏览 6提问于2017-05-16得票数 0

1回答

手动迭代Spark* SQL数据框并创建列值是否效率低下？*

、、、

为了运行一些ML算法，我需要创建额外的数据列。这些列中的每一列都涉及一些相当密集的计算，包括保持移动平均值，并在您遍历每行时记录信息(并同时更新它)。我已经用一个简单的Python脚本做了一个模拟，并且它可以工作，我现在正打算将它转换成一个可以在更大的数据集上运行的Scala Spark脚本。问题是，对于使用Spark SQL的这些应用程序似乎是高效的，最好使用内置的语法和操作(类似SQL)。在SQL表达式中编码逻辑似乎是一个非常耗费心思的过程，所以我想知道，如果我只是

浏览 2提问于2016-06-07得票数 0

1回答

避免在Apache中使用Java数据结构以避免复制数据

、、

我有一个包含大约1亿条记录(~25 100，~5列)的单表的MySQL数据库。使用Apache，我通过JDBC连接器提取这些数据，并将其存储在DataFrame中。从这里开始，我对数据做了一些预处理(例如，替换空值)，所以我绝对需要遍历每条记录。然后，我想进行维数约简和特征选择(例如使用PCA)，进行聚类(例如K-均值)，然后对新数据进行模型测试。我已经在Spark的Java中实现了这一点，但是它太慢了(就我的目的而言)，因为我将大量数据从DataFrame复制到java.util.Ve

浏览 2提问于2016-06-02得票数 0

回答已采纳

2回答

遍历Panda的df列以删除str

、、、

我不确定如何删除它，并尝试以各种方式迭代。如何遍历df并替换这些值？我希望它们是空白的，但我正在使用HELLO进行测试。

浏览 34提问于2021-06-23得票数 0

17回答

在Apache Spark* DataFrame中连接列*

、、、

如何在Apache Spark DataFrame中连接两列？Spark SQL中有没有我们可以使用的函数？

浏览 7提问于2015-07-16得票数 159

1回答

把熊猫变成火花公子

(left_on=column1, right_on=column2, window=41) 它基本上比较一列和另一列，并为可能相同的列生成索引对(记录匹配)。我的代码：df2 = spark.read.load(*.csv) func_udf = udf(index.indexer) ????我一直在使用udf进行只涉及一个datafr

浏览 0提问于2018-07-25得票数 0

回答已采纳

2回答

如何在Pyspark中转换Dataframe中的列表列表，每个列表都是每个属性的值？

、、、、

我有一个类型列表：每个列表包含属性'A1‘、'A2’和'A3‘的值。+----------+----------+----------+ +----------+----------+----------+ +

浏览 2提问于2017-10-23得票数 5

2回答

如何合并火花(java)中具有不同模式的两个拼花文件

、、

我有两个不同列数的拼板文件，并试图将它们与下面的代码片段合并// dataSetParquet1.union(dataSetParquet2);Caused by: org.apache.spark.sql.AnalysisException: Cannot reso

浏览 2提问于2021-08-26得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

scala中的withColumn函数没有将contstant值添加到列

Pandas创建单独的df遍历现有的df行

Spark access行对象值

从PySpark DataFrame列中删除元素

遍历数据表的行。

星星之火SQL数据集:将多个数组列拆分为单个行

如何在两个不同的DataFrames中添加相应的整数值

迭代的列并更新指定的值

Pyspark -在空数据帧上调用时withColumn不工作

列出pandas数据框列中的所有单词

正在将pyspark数据帧写入文本文件

从一个数据中获取值并将该值传递到SqlContext的循环中

手动迭代Spark* SQL数据框并创建列值是否效率低下？*

避免在Apache中使用Java数据结构以避免复制数据

遍历Panda的df列以删除str

在Apache Spark* DataFrame中连接列*

把熊猫变成火花公子

如何在Pyspark中转换Dataframe中的列表列表，每个列表都是每个属性的值？

如何合并火花(java)中具有不同模式的两个拼花文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐