如何在spark中用scala计算两个数据帧的值

、

我有两个数据帧，两个数据帧的计数相同，我想得到两个数据帧中每个值的和，这是输入：|df1| |df2|| 18| | 8|| 20| | 10|这是我<e

浏览 0提问于2017-07-07得票数 1

3回答

字符串列包含通过spark scala进行精确匹配的单词

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的datafr

浏览 1提问于2021-02-12得票数 0

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。中没有数据库(模式)的概念，但是我读到了包含模式信息等的亚稳态。我们可以在SparkSQL中编写像上面这样的SQL查询吗？我只是在检查为什么显示create没有使用spark，是因为它是一个临

浏览 6提问于2018-09-04得票数 1

1回答

如何在spark中使用pandas split-apply-combine风格策略和scala api？

、、、

我有一个scala函数，它接受一个spark dataframe并返回一个单值，也就是说两个值。这个函数很复杂，使用在DataFrame类中定义的聚合，调用其他java库，并且不能用SQL表达。它需要整个数据帧的内容来进行计算，它不能一次添加一行并建立一个结果。我有一个大的dataframe，其中包含一个列，我想用它将dataframe分成小块，并对每个小块执行上述计算。然后，我

浏览 28提问于2020-04-22得票数 0

1回答

spark-cassandra-connector -从Dataframe创建表格- StructType？

、、

我正试着从Spark数据帧中写给Cassandra。当我有一个简单的数据帧模式时，如示例中所示，它可以工作： |-- id: string (nullable = true)但是，当我尝试编写包含StructTypes的数据帧时，其模式如下： |-- crawl: struct (nullable = true) |

浏览 4提问于2016-06-27得票数 1

1回答

df.select()和df.agg()有什么区别？

、、、

我有一个数据帧，我想从其中提取最大值、最小值并计算其中的记录数。数据帧是：df: org.apache.spark.sql.Dataset[Long] = [id: bigint]scala> df.

浏览 3提问于2017-06-19得票数 1

回答已采纳

1回答

如何在spark中对scala中的Long和BigInt进行数学运算

、、、

我有两个不同类型的值，如下所示ageSum: org.apache.spark.sql.DataFrame = [sum(age): bigint]scala> totalEntries第一个值来自数据</em

浏览 7提问于2017-01-26得票数 0

回答已采纳

1回答

如何在scala中访问和合并未来类型的多个DataFrame

、、、、

我有spark scala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们，它们返回给我未来类型的DataFrame，我如何在最后合并它们，并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时，它显示以下错误 value union is not a member of sc

浏览 2提问于2020-01-22得票数 0

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我有涉及多个列的连接。我是否只需要确保存在一组惟一的列名，而不管我应用na().fill()方法的</e

浏览 4提问于2016-02-28得票数 3

1回答

将1列中的空值替换为另一列中的数据

、

我正在尝试用可能在count_2列中的数据替换count_1列中的所有空数据。下面是给定输入的预期输出。我如何在Spark Scala中做到这一点？输入数据帧 name count_1 count_2Python null 20000R nullnull Swift 50000 65000

浏览 23提问于2021-09-05得票数 1

回答已采纳

1回答

Spark在RDD中查找字段的重复记录

、、

我有如下数据集: 10，"Name",2016，"Country“11，"Name1",2016，"country1”10，"Name",2016，"Country“10，"Name",2016，"Country”12，"Name2",2017，"Country2“ 我的问题陈述是，我必须按年查找总计数和重复计数。我的结果应该是(年份，总记录，重复) 2016,4,3 2017,1,0。._1

浏览 15提问于2016-08-03得票数 0

1回答

如何访问scala中火花数据的列索引以进行计算

、

我是Scala编程新手，我对R做过大量的工作，但是在scala工作时，很难在循环中提取特定的列来执行列值的计算。让我用一个例子来解释：上面是引用列的计算，所以在计算之后，我们将得到下面的spark数据

浏览 1提问于2018-05-09得票数 0

回答已采纳

2回答

我如何在spark* scala中创建日期范围的存储箱？*

、

我是一名Python开发人员，正在尝试学习Spark Scala。我的任务是创建日期范围框，并计算每个框(直方图)中出现的频率。我的输入数据帧如下所示我的bin边是这样的(在Python中)：我要查找的输出dataframe是

浏览 2提问于2020-09-02得票数 0

1回答

如何在Apache Spark中检查一列的值是否在另一列的数组中？

、、

我有一个数据帧，看起来像这样| col1| col2|| blue |[blue, purple] |+------+--------------------+ 我如何在Apache Spark中使用scala来判断col1中的值是否在c

浏览 19提问于2021-06-02得票数 1

9回答

Apache中的DataFrame等式

、、、、

假设df1和df2是Apache中的两个DataFrame，使用两种不同的机制计算，例如Spark与Scala/Java/Python。是否有一种惯用的方法来确定这两个数据帧是否是等价的(相等的、同构的)，其中等价性是由数据(每一行的列名和列值)是相同的(行和列的<

浏览 7提问于2015-07-03得票数 61

回答已采纳

3回答

我正在尝试合并一些脚本；让我们只读一次DB，而不是每个脚本从Hive读取相同的数据。因此，转移到只读一次；处理多个模型。我持久化了数据帧并在每次聚合后重新划分输出；但我需要它更快，如果有什么不同的话，那就是这些东西减慢了它的速度。我们每天都有20TB+的数据，所以我认为如果数据要被多次读取，那么持久化数据会让事情变得更快，但事实并非如此。此外，我有很多工作发生在相同的数据，如下图所示。我们可以并行

浏览 0提问于2020-04-23得票数 0

3回答

如何使用createDataFrame创建pyspark数据帧？

我知道这可能是一个愚蠢的问题。

浏览 1提问于2018-03-12得票数 2

回答已采纳

3回答

使用Scala的星火2.0时间戳差(毫秒)

、、、、

我正在使用Spark2.0，并在Scala中寻找一种实现以下功能的方法：Value_2 = 06/13/2017 16:44:21.067 两者的数据类型都是时间戳。注意:对值和减法都应用函数unix_timestamp(列s)，但不能达到所需<em

浏览 0提问于2017-10-03得票数 9

1回答

N列m行的动态数据帧

、

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧：import spark.implicits._ (1, "ABC")ABC|| 3| GHIJ|要求:列数和名称可以是任何值。需要在后续流程中处理该<em

浏览 6提问于2020-06-04得票数 0

回答已采纳

3回答

如何在pyspark中找到数据帧的大小

、

如何复制此代码以获取pyspark中的数据帧大小？scala> val df = spark.range(10)Statistics(sizeInBytes=80.0 B, hints=none) 我想要做的是将sizeInBytes值放入

浏览 0提问于2020-06-03得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

字符串列包含通过spark scala进行精确匹配的单词

如何比较SQL语句中两种数据的模式？

如何在spark中使用pandas split-apply-combine风格策略和scala api？

spark-cassandra-connector -从Dataframe创建表格- StructType？

df.select()和df.agg()有什么区别？

如何在spark中对scala中的Long和BigInt进行数学运算

如何在scala中访问和合并未来类型的多个DataFrame

DataFrame na()填充方法和不明确引用的问题

将1列中的空值替换为另一列中的数据

Spark在RDD中查找字段的重复记录

如何访问scala中火花数据的列索引以进行计算

我如何在spark* scala中创建日期范围的存储箱？*

如何在Apache Spark中检查一列的值是否在另一列的数组中？

Apache中的DataFrame等式

PySpark数据帧性能调整

如何使用createDataFrame创建pyspark数据帧？

使用Scala的星火2.0时间戳差(毫秒)

N列m行的动态数据帧

如何在pyspark中找到数据帧的大小

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐