根据同一列上的另一个行值计算Spark列值

是指在Spark中，根据同一列上的其他行的值来计算当前行的值。这种计算通常涉及到对数据集的聚合、分组、排序等操作。

在Spark中，可以使用窗口函数（Window Function）来实现根据同一列上的另一个行值计算列值的需求。窗口函数可以将数据集划分为多个窗口，并在每个窗口上进行计算。常见的窗口函数包括滑动窗口、滚动窗口和分组窗口。

滑动窗口（Sliding Window）是指在一个固定大小的窗口内进行计算，并且窗口可以滑动到下一个位置继续计算。滑动窗口通常用于计算移动平均值、移动总和等。

滚动窗口（Tumbling Window）是指在一个固定大小的窗口内进行计算，并且窗口不会滑动，而是在计算完当前窗口后直接跳到下一个窗口进行计算。滚动窗口通常用于计算每个窗口的聚合值。

分组窗口（Grouping Window）是指根据某个列的值将数据集分组，并在每个分组内进行窗口计算。分组窗口通常用于计算每个分组内的聚合值。

在Spark中，可以使用窗口函数的API来实现根据同一列上的另一个行值计算列值的需求。具体的实现步骤如下：

使用窗口函数的partitionBy方法指定要根据哪个列进行分组。
使用窗口函数的orderBy方法指定要根据哪个列进行排序。
使用窗口函数的rowsBetween方法指定窗口的范围，例如滑动窗口的大小和滚动窗口的大小。
使用窗口函数的agg方法指定要进行的聚合操作，例如求和、平均值等。

以下是一个示例代码，演示如何使用窗口函数计算根据同一列上的另一个行值计算列值的过程：

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._

// 假设有一个DataFrame df，包含两列：col1和col2
val windowSpec = Window.partitionBy("col1").orderBy("col2").rowsBetween(-1, 1)
val result = df.withColumn("calculated_col", sum("col2").over(windowSpec))

result.show()

在上述示例中，我们首先使用Window.partitionBy("col1").orderBy("col2").rowsBetween(-1, 1)定义了一个窗口规范，表示按照col1进行分组，按照col2进行排序，窗口范围为当前行的前一行到后一行。然后使用sum("col2").over(windowSpec)计算了在窗口范围内col2的总和，并将结果存储在了新的列calculated_col中。

对于这个问题，腾讯云提供了一系列的产品和服务来支持Spark计算，例如腾讯云的云服务器、云数据库、云原生容器服务等。您可以根据具体的需求选择适合的产品和服务。更多关于腾讯云产品和服务的信息，您可以访问腾讯云官方网站：腾讯云官方网站。

如何将列值设置为在范围内结束

、

尝试设置多列不同的值，但只能设置到第一列的最后一行为止： Sub Macro7() ' ' Macro7 Macro ' Dim rng As Range For Each rng In Sheets("Sheet1").Range("A1").CurrentRegion rng.Value = NumberOnly(rng.Value) Columns("E:rng").Value = 6 Columns("D:rng&#

浏览 2提问于2019-12-30得票数 0

回答已采纳

1回答

如何避免在GeoSpark的范围查询中超出gc开销限制？

、、、

我使用的是带有GeoSpark 1.2.0扩展的Spark 2.4.3。我有两张表要连接，作为距离距离。一个表(t1)，如果大约100K行只有一列，这就是Geospark的几何形状。另一个表(t2)大约有30M行，它由一个Geospark值和一个Geospark的几何列组成。我想要做的只是一个简单的： val spark = SparkSession .builder() // .master("local[*]") .config("spark.serializer", classOf[KryoSerializer

浏览 12提问于2019-07-27得票数 0

1回答

如果json参数中有"\n“值，则explode_outer将该列拆分为2行

、、、

我正在尝试执行一个火花笔记本，在其中我试图处理json文件，该文件在一个名为"data“的列中有一个json数组： [{"payload":"here to check 1.\n checking again 1", "key1": " value1"}, {"payload":"here to check 2.\n checking again 2", "key1": " value2"}] 我使用explode_outer()将列“数据”分割成不同的行，

浏览 1提问于2019-04-24得票数 0

回答已采纳

1回答

是否为每个浏览行设置add-calc-column()值？

对于静态浏览，在行显示上，我会计算静态浏览上的列变量。但是，使用ADD-CALC-COLUMN()如何为浏览中每一行设置列值？谢谢。

浏览 0提问于2013-02-21得票数 0

2回答

理解火花WindowSpec#rangeBetween

、、

Spark提供了以下示例，作为WindowSpec类的WindowSpec方法的方法文档： import org.apache.spark.sql.expressions.Window import spark.implicits._ val df = Seq((1, "a"), (1, "a"), (2, "a"), (1, "b"), (2, "b"), (3, "b")).toDF("id", "category") val byCategoryOrdered

浏览 5提问于2017-11-05得票数 1

回答已采纳

1回答

为什么我们需要检查哈希码两次？

、、

这是HashMap.java (docjar)的代码。关键字的散列在第431行中计算。这有助于获取第432行的索引i。这个索引中的所有条目都应该具有相同的散列。为什么在第440行上再次检查哈希相等？(if (e.hash == hash ) private void putForCreate(K key, V value) { 430 int hash = (key == null) ? 0 : hash(key.hashCode()); 431 int i = indexFor(hash, table.length); 432 4

浏览 2提问于2015-12-06得票数 2

回答已采纳

1回答

在Pyspark/Hive中处理更改的数据类型

、、、

在解析pyspark中不一致的数据类型时，我遇到了一个问题。如下面的示例文件所示，SA键总是包含一个字典，但有时它可以显示为string值。当我尝试获取列SA.SM.Name时，会得到如下所示的异常。对于SA.SM.Name列，如何将null设置为除了JSONs之外的值的pyspark/hive。有人能帮帮我吗？我试图转换成不同的数据类型，但是没有工作，或者我可能做错了什么。输入文件内容: mypath {"id":1，"SA":{"SM"：{"Name"："John"，"Email"：“Jo

浏览 6提问于2020-10-10得票数 0

1回答

MemSQL中的分片键可以有NULL吗？

、

集群columnStore的分片key和key的规则是什么？我需要创建一个列作为分片键，还需要为集群columnStore创建一个列，但它可能包含Nulls 将可空的列保留为分片键会有什么影响？我已经使用这一列测试了数据加载，在较高的级别上，第一批看起来一切正常，但它会在写入或读取行的过程中破坏任何东西吗？ CREATE TABLE test ( name varchar(25) DEFAULT NULL, ID int(11) DEFAULT NULL, update_date date DEFAULT NULL, SHARD KEY (update_date) USING CLUST

浏览 29提问于2020-04-15得票数 0

1回答

如何确定10亿行的执行程序数目

、、

我们有一张有13.55亿行的桌子。这个表有20列。我们希望将此表与另一个表连接，该表的行数较少。如何确定spark.conf.set("spark.sql.shuffle.partitions",?)的数量如何确定执行者的数量及其资源分配的细节？如何找到这13.55亿行将占用的内存量？

浏览 3提问于2022-07-26得票数 0

回答已采纳

2回答

修复了google-spredsheet breaks数组公式中移动行的问题

、

我在google sheets中有一个整列的数组公式，例如C1中的以下公式 ArrayFormula(A1:A+B1:B) A和B列中有数据。如果我抓起一行并把它移到另一个位置。只要我移动它，该行C列中的相应值就会被粘贴为硬值，并破坏整个数组公式。有什么办法可以解决这个问题吗？

浏览 1提问于2015-03-28得票数 4

1回答

Window.rowsBetween -只考虑满足特定条件的行(例如，不为null)

、、、

问题我有一个星火DataFrame，它有一个列，它包含的不是每一行的值，而是某些行的值(在某种程度上是有规律的，例如，根据id只包含5到10行)。现在，我想将一个窗口函数应用到包含涉及前两个行和后面两个行的值的行，这些行也包含值(因此基本上假装所有包含空值的行都不存在=不计入窗口的rowsBetween-range )。实际上，我的有效窗口大小可能是任意的，这取决于包含空值的行数。然而，我总是需要精确的前后两个值。此外，由于包含重要信息的其他列，最终结果应该包含所有行。示例例如，我希望计算前两个值、当前值和下两个值(非空值)的和值，这些值是非空的： from pyspark.sql.w

浏览 0提问于2018-11-20得票数 4

3回答

获取Informatica中源表中列的最大值

、、

浏览 4提问于2014-11-14得票数 1

回答已采纳

1回答

Azure数据湖的火花谓词下推、过滤和分区剪枝

、、、、

为了了解读取的数据量，我一直在阅读关于火花谓词、下推和分区剪枝的文章。我对此有以下疑问假设我有一个包含(年份: Int，SchoolName: String，StudentId: Int，SubjectEnrolled: String)列的数据集，其中存储在磁盘上的数据按年份和SchoolName进行分区，并在例如蔚蓝数据湖存储处以拼花格式存储。 1)如果我发出一个read spark.read(容器).filter(Year=2019，SchoolName="XYZ")：将执行分区修剪，并且只读取有限数量的分区？是否会在blob存储上存在I/O，数据将被加载到Spark集

浏览 1提问于2019-09-27得票数 3

回答已采纳

2回答

Apache Spark:指数移动平均

、、、、

我正在用Spark/Scala编写一个应用程序，其中我需要计算列的指数移动平均值。 EMA_t = (price_t * 0.4) + (EMA_t-1 * 0.6) 我面临的问题是，我需要之前计算的同一列的值(EMA_t-1)。通过mySQL，这是可能的，通过使用模型或通过创建一个EMA列，然后您可以逐行更新，但我已经尝试过这种方法，并且既不使用Spark SQL也不使用Hive上下文...有什么方法可以访问这个EMA_t-1吗？我的数据如下所示： timestamp price 15:31 132.3 15:32 132.48 15:33 132.76 15:34 132.

浏览 1提问于2015-11-27得票数 1

1回答

包含分号分隔的多个名称的Excel列，需要过滤具有多个值的行，省略单个值

、

筛选包含多个名称的行的列。省略具有单个名称的行。

浏览 0提问于2019-10-10得票数 0

1回答

如何使用Python Dataframe API在Apache Spark中找到中位数？

、、、

Pyspark API提供了除median之外的许多聚合函数。Spark 2附带了approxQuantile，它给出了近似的分位数，但精确的中位数计算起来非常昂贵。对于Spark Dataframe中的一列值，是否有更多的Pyspark方法来计算中值？

浏览 3提问于2016-08-03得票数 3

回答已采纳

2回答

Pandas将Nan列值更改为True或False

、

我需要根据NaN值将列更改为True或False。这是df文件。 missing 0 NaN 1 b 2 NaN 4 y 5 NaN 会变成 missing 0 False 1 True 2 False 4 True 5 False 是的，我可以做一个循环，但是有一种简单的方法可以在一行代码中完成。谢谢。

浏览 43提问于2020-07-12得票数 0

回答已采纳

1回答

如何在SQL中使用枢轴(不是作为DataFrame分组操作符)？

、、、

我有这个dataframe，我试图将这个dataframe操作转换成sql使用pivot函数。 val df = Seq( (1, "a,b,c"), (2, "b,c") ).toDF("id", "page_path") df.createOrReplaceTempView("df") df.show() df .withColumn("splitted", split($"page_path", ","))

浏览 0提问于2020-05-11得票数 4

回答已采纳

1回答

结构化火花流leftOuter连接的行为类似于内部连接

、、、

我正在尝试结构化火花流流-流-流连接，而我的左侧外部连接的行为与内部连接完全相同。使用spark版本2.4.2和ScalaVersion2.12.8，Eclipse，1.8.0_252 这就是我想做的，创建速率流，每秒生成1行。创建雇员流和Dept流。员工流deptId字段将速率值乘以2，Dept流id字段乘以3字段，这样做的目的是有两个几乎没有公共和非公共id字段的流。<code>H 111<//code>Do<code>E 112</code>左侧<代码>E 213</code>流-流，时间约束为30秒，并在连接

浏览 2提问于2020-07-30得票数 3

回答已采纳

1回答

火花Dataframe Arraytype型柱

、、

我想在dataframe上创建一个新列，这是将函数应用到arraytype列的结果。就像这样： df = df.withColumn("max_$colname", max(col(colname))) 列的每一行都包含一个值数组？ spark.sql.function中的函数似乎只在列的基础上工作。

浏览 1提问于2018-03-24得票数 2

回答已采纳

1回答

Server插入多个记录时计算列的最佳替代方案？

我有一张约有200块地的桌子。其中超过半数是基于其他计算列的计算列，这些计算列基于另一计算列……此外，公式很长。因此，我当然得到了以下错误： Msg 1759，16级，状态0，第16行表% %s%中的计算列%%不允许在另一个计算列定义中使用。所以我有点不知道该走哪条路。知道我是通过插入多个记录来填充我的表的最佳实践是什么(非常重要)。我应该使用变量和游标，还是应该使用视图？ INSERT INTO mainTable SELECT * FROM #tempTable;

浏览 1提问于2015-05-18得票数 0

回答已采纳

1回答

手动迭代Spark SQL数据框并创建列值是否效率低下？

、、、

为了运行一些ML算法，我需要创建额外的数据列。这些列中的每一列都涉及一些相当密集的计算，包括保持移动平均值，并在您遍历每行时记录信息(并同时更新它)。我已经用一个简单的Python脚本做了一个模拟，并且它可以工作，我现在正打算将它转换成一个可以在更大的数据集上运行的Scala Spark脚本。问题是，对于使用Spark SQL的这些应用程序似乎是高效的，最好使用内置的语法和操作(类似SQL)。在SQL表达式中编码逻辑似乎是一个非常耗费心思的过程，所以我想知道，如果我只是通过迭代每一行、跟踪变量并在末尾插入列值来手动创建新的列值，会有什么缺点。

浏览 2提问于2016-06-07得票数 0

1回答

MongoDB: SHA512列可以吗？

、、

基本上我想做的是： SELECT * FROM myTable WHERE SHA2(myField, 512) = 'myValue'; 这个是可能的吗？场景我有这个散列字符串，但是我在DB中存储了一个普通字符串。

浏览 1提问于2015-02-13得票数 0

回答已采纳

1回答

使用SparkR向Spark dataframes添加包含函数值的列

、、、

我正在使用SparkR来处理一些在其技术堆栈中包含R和spark的项目。我必须使用从验证函数返回的布尔值创建新列。我可以使用spark数据帧和一个表达式轻松地完成这项工作： sdf1$result <- sdf1$value == sdf2$value 问题是当我必须比较两个不同长度的数据帧时。使用函数操作sdf1和sdf2数据帧并将值赋给sdf1的新列的最佳方式是什么？假设我想生成一个长度介于sdf1和sdf2之间的列。

浏览 3提问于2017-05-18得票数 0

1回答

是否允许SQL Server 2008中存在重复的唯一标识符？

、、、、

假设我的数据库中只有2个表。这两个表是: InputType和HardwareType。每个表都使用GUID作为其主键。有一个从InputType到HardwareType的外键。我遇到的问题是，在HardwareType中会有多行InputType引用同一行(即.每种类型的硬件都有几个输入)。这样做的问题是，我在InputType中引用HardwareType中的GUID的列不允许重复--因此，不允许每个硬件类型有多个输入。我可能可以通过在InputType中将列的数据类型设置为"varchar“或其他值来代替”唯一标识符“来解决此问题，但我必须这样做吗？当GUID不是主键，而是

浏览 5提问于2011-06-29得票数 4

回答已采纳

1回答

如何计算dataframe列的平均值并找到前10%

、

我对Scala和Spark非常陌生，我正在用棒球统计做一些自制的练习。我正在使用case类，创建一个RDD并为数据分配一个模式，然后将其转换为一个DataFrame，这样我就可以使用SparkSQL来通过满足特定条件的统计数据来选择玩家组。一旦我有了我感兴趣的球员的子集，我想找到一个列的平均值；例如打击平均数或打点。从那以后，我想根据所有球员的平均表现，把他们分成百分位组；前10%，最低10%，40-50%。但是，我已经能够使用DataFrame.describe()函数返回所需列的摘要(均值、stddev、count、min和max)，所有这些都是字符串。是否有更好的方法来使平均和标准发

浏览 0提问于2015-07-22得票数 14

回答已采纳

1回答

触发性能-1或2个触发器？

、、

我有个关于触发器性能的问题。 CREATE TABLE [dbo].[_test]( [ID] [INT] IDENTITY(1,1) NOT NULL, [Date] [DATETIME] NULL, [DateYearID] [INT] NULL, [DateQuarterID] [INT] NULL, [Date1] [DATETIME] NULL, [Date1YearID] [INT] NULL, [Date1QuarterID] [INT] NULL) 现在，如果我更新日期列(或插入新行)，则需要触发器更新DateYearID和DateQuarterID列；如果我更新Date1列(

浏览 0提问于2015-05-29得票数 2

回答已采纳

1回答

如何使用查找和PREVIOUS_VALUE避免表格中的循环引用？

、、

你好！在Excel中，我有2列C和D，其中包含用于特定目的的公式。举个例子，这里有两个列中的单元格C12和D12来展示公式。 C12 = 0.001855 * B12/E12 + 0.998145 * (C11+D11) D12 = 0.981119 * (C12-C11) + 0.018881 * D11 假设C列变量是"Running“，D列变量是"Growth”，行是月份。比如说，我想把这些公式复制到一个Tableau工作表中，表中有几个月。您可以看到，C12使用的是它自己的前一个值C11 (C的滞后性-1 )和D的滞后-1 (D11)。我可以在表中的公式中找到C

浏览 3提问于2019-10-15得票数 0

1回答

在pyspark中读取未分区的csv文件时跳过特定行

、、、、

我有一个未分区的gzipped文件，我正在将它读入spark。读取gzipped文件不是问题，但是一旦使用触及特定违规行的操作对spark dataframe进行求值，就会抛出一个错误。如果我使用df.limit()，我可以将读取时的数据帧设置为违规观察之前的行号，然后可以继续我的工作流而不会出错。我的问题是，有没有一种方法可以在观察中跳过阅读。我想做一些关于df.limit_range(100:200)的事情，在读取csv时跳过第100-200行。我尝试了各种尝试来生成索引列，然后进行过滤，但在求值时遇到了问题。下面，我尝试将子集化到有问题的行之前的所有行，然后反连接原始的未过滤数据帧，

浏览 29提问于2021-02-10得票数 1

2回答

计算列不允许在另一个计算列定义中使用。

、

当我试图在另一个计算字段中使用计算字段时，不允许在另一个计算列定义错误消息中使用计算列。有什么办法可以解决这个问题吗？计算field1 ALTER TABLE DBO.[ASSy] ADD [CALC STOCK NO] AS ( CASE WHEN isnull([DIRECTIONAL TREAD],'') ='YES RIGHT' THEN isnull([STOCK NO],'')+'R' WHEN isnull([DIRECTIONAL TREAD],'') ='YES LEFT'

浏览 2提问于2017-02-21得票数 6

回答已采纳

1回答

删除Power / Power查询中具有类似值的行

、

我正在处理一个具有重复行的数据集。这些行不是直接重复的，而是间隔不到一秒钟的时间戳。我想删除这些副本，但问题是如何删除。我目前的计划是添加两个新列，它们是时间戳列的副本，但其中一个列有第二个列，另一个列被移除。然后，我可以添加步骤来删除具有所有其他值相同但具有与时间戳相同的时间戳加上1或-1的行。一个接一个地执行应该消除重复，而不是删除真正唯一的行。如何在Power查询中完成这一任务？

浏览 0提问于2018-02-01得票数 1

回答已采纳

1回答

如何将XamGrid中与另一个控件位于同一行的控件作为目标(或获取)？

、、、、

我使用XamGrid来允许用户编辑数据。我有几种情况，在给定的可编辑行中的一个控件上的事件处理程序必须使用或指向同一行中的另一个控件。例如，我希望处理一个ComboEditor的选择更改，以使另一个ComboEditor中的选项列表发生更改。作为另一个例子，我希望选中复选框来禁止编辑同一行中的其他控件。如何查找或获取对同一行中不同控件的引用？通常，每个控件的事件参数都不知道其他控件或控件在一行中。

浏览 0提问于2011-11-09得票数 0

回答已采纳

1回答

在Spark查询中计算最优混叠分区和减少倾斜

、

我在EMR (纱线)上使用SparkSQLv2.4.7。我编写Spark查询来执行转换。估计复杂查询的最优混叠分区数我试图估计需要设置的最优洗牌分区的数量，以便获得具有多个联接的复杂查询的最佳性能。在互联网上，我发现分区的最佳大小应该在10 MB-100 MB的范围内。现在，由于我知道这个值，下一步是计算查询的数据洗牌卷(以MB为单位)，然后用100除以获得洗牌分区号。但是，对于涉及多个大表连接的复杂查询，估计洗牌量变得非常困难。那么，如何估计洗牌卷的数量，以及大查询所需的最优洗牌分区数量？目前(经过大量搜索)，我正在执行以下步骤- scala> spark.sql("&#

浏览 8提问于2022-01-30得票数 0

1回答

H2数据库性能奇异

、

设置再简单不过了： H2版本1.3.176 一个表，10列，其中2列有点长，300和3500字符是典型的值长度。简单查询：select count(*) from requestrepository where request_type = 'ADD' 索引在被查询的列上。查询列只是varchar(20) (即不是较长的列)。 Queried列只包含两个不同的值，一个出现200 k次，另一个出现1200万次。 DB运行于SSD、当前服务器硬件、当前Java 8(稍加改动，但结果没有变化) 我所做的是：(0)运行analyze，(1)通过键

浏览 1提问于2017-02-09得票数 1

1回答

在Spark ML中，为什么在一列上拟合具有数百万个分界值的StringIndexer会产生面向对象模型错误？

、、

我正在尝试对一个具有大约15.000.000个唯一字符串值的列使用Spark的功能转换器。不管我投入多少资源，Spark总是死在我身上，出现某种类型的内存不足异常。 from pyspark.ml.feature import StringIndexer data = spark.read.parquet("s3://example/data-raw").select("user", "count") user_indexer = StringIndexer(inputCol="user", outputCol="us

浏览 6提问于2018-08-24得票数 7

回答已采纳

1回答

基于pyspark的均值漂移聚类

、、、、

我们正在尝试将一个普通的python代码库迁移到pyspark。议程是对数据帧(以前是pandas，现在是spark)进行一些过滤，然后按user-ids对其进行分组，最后在顶部应用meanshift集群。我在分组数据上使用pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)。但现在，最终输出的表示方式出现了问题。假设我们在输入数据帧中有两列：user-id和location。对于每个用户，我们需要获取所有集群(在location上)，只保留最大的一个，然后返回其属性，这是一个3维向量。让我们假设3元组的列是col-1、col-2和col-3。

浏览 11提问于2019-05-14得票数 0

回答已采纳

1回答

火花MLlib和火花ML中的主成分分析

、、

火花现在有两个机器学习库-星火MLlib和火花ML。它们在实现的内容上有些重叠，但据我所知(作为整个星火生态系统的新手)，Spark是可行的，而且MLlib仍然存在，主要是为了向后兼容。我的问题非常具体，与PCA有关。在实现中，列的数量似乎受到限制。 spark.mllib支持存储在面向行格式和任何向量中的高和瘦矩阵的主成分分析。另外，如果您查看Java代码示例，也会看到以下内容列的数目应该是小的，例如，小于1000。另一方面，如果您查看文档，则没有提到任何限制。所以，我的问题是-这个限制是否也存在于Spark？如果是的话，即使列数很大，为什么限制和有任何变通方法可以

浏览 3提问于2016-10-26得票数 10

回答已采纳

1回答

星星之火SQL DataFrame漂亮打印

、、

我对Scala不是很在行(我更喜欢R)，我希望使用WrappedArray在spark-shell中使用Scala在两行中显示spark-shellelemnt的内容(参见下面的sqlDf.show())。我试过explode()函数，但没能做得更好. scala> val sqlDf = spark.sql("select t.articles.donneesComptablesArticle.taxes from dau_temp t") sqlDf: org.apache.spark.sql.DataFrame = [taxes: array<array&l

浏览 3提问于2016-12-21得票数 3

回答已采纳

4回答

Spark dataframe添加新的列问题-结构化流

、

我正在使用spark Structured。我有一个数据帧，并添加了一个新列"current_ts“。 inpuDF.withColumn("current_ts", lit(System.currentTimeMillis())) 这不会使用当前纪元时间更新每一行。当作业被触发时，它更新相同的epcoh时间，从而使DF中的每一行都具有相同的值。这在正常的spark工作中效果很好。这是spark structured的问题吗？

浏览 1提问于2018-04-01得票数 4

1回答

在MySQL查询上遇到困难:如何选择包含列的值的子集的行？

、

有两个表，一个Contact表和一个RelationshipHistory表。联系人可以具有多种类型的关系(业务关系、个人关系、志愿者关系等)，这意味着随着时间的推移，他们可以在RelationshipHistory表中拥有多个引用。每个关系行都有一个列，该列指示与该关系相关的事件。因此，例如，联系ContactID 123的John Smith在RelationshipHistory表中可能有两行: 123，个人，有趣事件和123，志愿者，无聊事件。我需要执行的查询是“获取所有与事件”有趣事件“和事件”无聊事件“有关系的联系人”。我最初认为这样的查询会起作用： SELECT DISTIN

浏览 0提问于2010-08-28得票数 0

1回答

Cassandra -基于范围的过滤行

、、

使用cassandra、spark和datastax的spark-cassandra-connector。在中，它支持这样的过滤器示例： sc.cassandraTable("test", "cars").select("id", "model").where("color = ?", "black").toArray.foreach(println) 基本上，它使用black过滤color列。但是，我可以根据范围过滤行吗？就像我想过滤range列一样，它是long类型，range介于100000

浏览 1提问于2014-12-10得票数 0

回答已采纳

1回答

火花流数据帧持久化操作

、、、、

我正在从我的spark代码中读取Oracle数据库，并且我坚持它-(缓存操作)。 val dataOracle = spark.read .format("jdbc") .option("url",conn_url) .option("dbtable", s"(select * from table)") .option("user", oracle_user) .option("password", oracle_pass) .option("driver

浏览 1提问于2020-11-24得票数 1

回答已采纳

2回答

Spark Structured Streaming如何确定事件是否迟到？

我通读了spark structured streaming文档，我想知道spark structured是如何确定事件已经迟到的？它是否将事件时间与处理时间进行比较？以上图为例，粗体右箭头线" time“是否代表处理时间？如果是这样 1)这个处理时间是从哪里来的？由于它的流，它是否假设有人可能正在使用具有处理时间戳的上游源，或者spark添加了处理时间戳字段？例如，当阅读来自Kafka的消息时，我们会这样做 Dataset<Row> kafkadf = spark.readStream().forma("kafka").load() 默认情况下

浏览 0提问于2018-02-26得票数 4

1回答

SQL -只能在计算列上创建唯一或主键约束。

、

但是，当我尝试这样做时，我试图创建一个包含一个名为profileID的计算列的表： CREATE TABLE Profiles ( [id] [int] IDENTITY(1,1) NOT NULL, [profileID] AS ((id * 19379 - 62327) % 99991) NOT NULL ) 但是，当我要创建它时，我会得到以下错误：只能在计算列上创建唯一或主键约束，而CHECK、外键和NOT NULL约束要求计算列被持久化。我试着调整profileID行 [profileID] as ( (id * 19379 - 62327) % 9999

浏览 3提问于2017-08-17得票数 5

回答已采纳

1回答

将函数应用于Spark DataFrame的每一行

、

我在Spark 1.3上我想对数据帧的每一行应用一个函数。此函数对行的每一列进行散列处理，并返回散列列表。 dataframe.map(row => row.toSeq.map(col => col.hashCode)) 当我运行这段代码时，我得到了一个NullPointerException。我假设这与有关。如果不使用嵌套的map，我想不出一种方法来达到同样的效果。

浏览 1提问于2015-12-23得票数 9

回答已采纳

1回答

如何查找spark dataframe中所有值都重复的列？

、

我正在预处理我的数据(2000K+行)，并希望计算spark数据帧中重复的列，例如： id | col1 | col2 | col3 | col4 | ----+--------+-------+-------+-------+ 1 | 3 | 999 | 4 | 999 | 2 | 2 | 888 | 5 | 888 | 3 | 1 | 777 | 6 | 777 | 在本例中，col2和COL4的值是相同的，这是我感兴趣的，所以让count +1。我在pyspark中尝试过toPanda

浏览 2提问于2019-07-01得票数 0

1回答

MySQL 5.5 (InnoDB)的分区策略

、、

尝试为MySQL 5.5 (InnoDB)表实现分区策略，但我不确定我的理解是否正确，或者在创建分区时是否需要更改语法。表"Apple“具有10个磨机rows...Columns "A”到"H“PK是列"A”、"B“和"C”。列"A“是一个字符列，可以标识200万行的组。我认为列"A“将是尝试实现分区的一个很好的候选者，因为我按该列进行选择和删除，并且在不再需要数据时实际上可以截断该分区。我发出了这个命令: ALTER TABLE Apple PARTITION BY KEY (A)；使用以下命令查看分区信息后:从INFO

浏览 2提问于2011-11-25得票数 1

回答已采纳

1回答

Spark SQL -无法将所有记录写入配置单元表

、、

我是Apache Spark框架的新手，我正在使用ApacheSpark通过Hive将数据写入Hadoop。在下面的代码中，我从配置单元读取table_1并创建数据集，然后将此数据集映射到另一个数据集。在将结果数据集保存到另一个table_2之后。 <code>A0</code> 两个不同的表中的行数应该相同，但是result dataset/table_2中的行数不同。例如，table_1有9.000.000个不同的行，而table_2有42.000个不同的行。我该如何解决这个问题呢？(或者我错过了一些关于spark的概念？)

浏览 20提问于2021-03-13得票数 0

1回答

从Spark中具有不同标头的多个csv文件创建一个数据帧

、、

在Spark中，使用Pyspark，我想创建一个数据框架(其中的路径实际上是S3中的一个文件夹)，其中包含多个具有公共列和不同列的csv文件。更简单地说，我只需要来自具有不同标头的多个csv文件的一个数据帧。我可以有一个标题为"raw_id，title，civility“的文件，以及另一个标题为"raw_id，first_name，civility”的文件。这是我在python 3中的代码： df = spark.read.load( s3_bucket + 'data/contacts/normalized' + '/*/*/*/*'

浏览 0提问于2019-01-16得票数 2

3回答

有没有办法让SQL Server自动对nvarchar字段的哈希值进行选择？

、、、

我不确定如何更好地表达这个问题，所以我可能遗漏了之前提出的一个问题。请随时关闭此链接，如果存在，请告诉我正确的链接。我有一个包含两个重要列的表(也就是说，它有更多的列，但只有两列与这个问题相关)。第一列是GUID ( id)，第二列是nvarchar (存储URL)。ID和URL的组合必须是唯一的(因此相同的guid可以重复，但每行具有不同的URL，反之亦然，但相同的guid和URL不能超过一行)。目前，在每次插入之前，我都会执行一次SELECT操作，以查看是否存在具有相同id和URL的行。但是，nvarchar上的查找看起来很慢。因此，我认为我应该更新表，以存储一个额外的列，该列在插入时

浏览 4提问于2010-10-21得票数 2

回答已采纳