在不同类型的大型数据帧中删除重复项的高效方法

可以通过以下步骤来实现：

首先，确保数据帧已加载到内存中，并确保可以使用适当的编程语言和库来处理数据帧。常见的编程语言和库包括Python的pandas、R语言的data.table等。
探索数据帧的结构和内容，以了解数据的特点和重复项的可能性。可以使用数据帧的基本函数和方法，如head()、describe()、info()等。
使用数据帧的去重方法来删除重复项。具体方法取决于数据帧的特点和需求，下面列举几种常见的方法：
a. 使用drop_duplicates()方法：该方法可以基于列或多列的数值进行去重。可以指定保留第一个出现的重复项或保留最后一个出现的重复项。例如，DataFrame.drop_duplicates(subset=['col1', 'col2'], keep='first')。
b. 使用duplicated()方法和布尔索引：可以使用该方法检测重复项，并根据布尔索引来删除重复项。例如，DataFrame[duplicated(['col1', 'col2'])]。
c. 使用groupby()方法和agg()方法：可以根据特定列进行分组，并使用agg()方法对每个组进行聚合操作，例如取第一个或最后一个值，以删除重复项。
在删除重复项之前，可以根据需求进行数据的预处理和清洗，例如处理缺失值、数据类型转换等。
进一步优化算法和代码以提高性能。可以根据数据帧的大小和特点，选择合适的数据结构和算法，避免不必要的循环和操作，尽量使用向量化操作。
进行测试和验证，确保删除重复项的方法得到正确的结果。可以使用随机生成的数据或现有数据进行测试，比较删除重复项前后数据的唯一性和一致性。

腾讯云相关产品推荐：

云服务器（CVM）：提供弹性计算能力，可满足不同规模和负载的需求。产品介绍链接：https://cloud.tencent.com/product/cvm
弹性MapReduce（EMR）：快速处理和分析大规模数据的云计算服务。产品介绍链接：https://cloud.tencent.com/product/emr
云数据库MySQL（CDB）：高可靠、可扩展的云数据库服务。产品介绍链接：https://cloud.tencent.com/product/cdb

注意：以上推荐的腾讯云产品仅供参考，具体选择还需根据实际需求和情况进行评估。

按相同列、不同顺序的结果数据帧对三组进行联合

、、、

我已经创建了三个不同的pandas数据帧，方法是将Group by应用于三个不同的数据，列分别为A、B、C。 Resultdf=SessionDev.query(AppDetails).filter(text(" A in ('20170727L00319')")).all() df1= Resultdf.groupby(["A", "B","C"]).size().reset_index(name='Count') df1 A | B

浏览 13提问于2018-12-31得票数 0

1回答

ffmpeg降低帧速率

我正在尝试将h264 vids转换为h265。有些vids是50 lot，似乎有很多重复的框架(100000+)。我猜这些是25 are，不知怎么的，它们有每一个帧重复。 ffmpeg似乎没有放弃框架，所以我想这是在浪费空间(虽然我希望很少，但它可能不是最佳的)。不过我想解决这个问题。是否有办法将帧速率设置为30，例如(-r 30)，并使ffmpeg正确地保持一切同步(音频正确地对齐)，而没有任何实际问题？这可能需要插值和所有这些，但我绝对不希望音频关闭(这是至关重要的)，我不希望长度改变。我不确定我是否可以指定-r 30，一切都会得到解决，这是否重要(也许h265非常有效地处理这些副本

浏览 1提问于2019-07-10得票数 0

回答已采纳

1回答

按日期合并多个数据框(删除重复项)

、、、

我正在尝试从几个数据帧中获得一个组合数据帧。基本上每个单独的数据帧都是一个月的数据。所以每个都有一个日期和一些其他值的列。然而，每个数据帧的长度并不总是相同的，其中一些日期在其中一些数据帧中重复。所以我想要做的是合并我的所有数据帧(从每个月的12个不同的数据帧中产生一年的数据)，所以我最终得到一个没有重复日期的数据帧。应该提到的是，每个数据帧中的列都是相同的。只是不同的价值观。这可以用一种简单的方式来完成吗，或者...？

浏览 13提问于2020-11-25得票数 0

回答已采纳

2回答

Pandas不删除行

、

我正在尝试删除数据帧中的所有重复项。我正在使用 removeDuplicates = data.drop_duplicates() 但它只是打印相同的数据集，而不丢弃副本。数据帧示例：第一行应该保留，所以第二次出现的县1也就是重复的应该被删除。但是，当我对此运行drop duplicates时，没有任何反应编辑:不要紧，它打印的是不同的数据帧。不应删除县1的第二个匹配项，因为它不是重复的。

浏览 0提问于2021-02-17得票数 0

3回答

Pandas/Python:如何在不重复的情况下连接两个数据帧？

、、

我想将两个数据帧A，B连接到一个没有重复行的新数据帧中(如果B中的行已经存在于A中，则不添加)：数据帧A:数据帧B： I II I II 0 1 2 5 6 1 3 1 3 1 新数据帧： I II 0 1 2 1 3 1 2 5 6 我该怎么做呢？

浏览 1提问于2014-01-24得票数 81

回答已采纳

1回答

聚合具有重叠时间序列的多个数据帧

、

我在dfList中有多个带有时间序列索引的数据帧(示例数据帧如下所示)。我尝试通过以下命令将这些数据帧连接到一个数据帧中。 db=pd.concat(dfList) 我得到了下面的数据帧。时间序列索引是重复的(许多索引是2012-10-12 20:00:00)，因为基本数据帧中的时间序列相互重叠。我想删除这个副本。有人知道怎么做吗？下面显示了时间序列索引重叠一些示例数据帧谢谢你！！

浏览 0提问于2017-06-25得票数 1

1回答

R:查找在某一值范围内的副本

、

我有一个数据帧(df)，包括纬度和经度坐标(Lat，Long)以及每个条目的温度测量深度(深度)。实质上，每个条目都有(x，y，z)=(Lat，长，深度)的位置信息，用于每一种温度测量。我试图通过查找和删除重复的测量位置来清理数据。简单的部分是删除精确的副本，按如下方式处理： df = df[!(duplicated(df$Lat) & duplicated(df$Long) & duplicated(df$Depth)),] 但是，问题是有些条目的lat/long的值只是略微偏离，这意味着上面的代码不会捕获它们，但是它们仍然是明显重复的(例如，lat = 39.252880

浏览 0提问于2016-08-02得票数 1

4回答

如何在增量表中删除重复项？

、、

有一个从增量表中删除数据的函数： deltaTable = DeltaTable.forPath(spark, "/data/events/") deltaTable.delete(col("date") < "2017-01-01") 但是，有没有办法以某种方式删除重复项呢？像deltaTable.dropDuplicates()..。我不想将整个表作为数据帧读取，删除重复项，然后再次将其重写到存储中

浏览 2提问于2020-05-08得票数 3

2回答

用重复的值连接列-合并前还是合并后清除？

、

我加入了一个列上的两个数据集，该列在两个数据集中都有重复的值。更好的做法是在加入两个数据集中之前移除重复项并使我在两个数据集中的主键上连接的值，还是可以先合并两个数据集，然后使用类似于.groupby()的方法将联接列作为主键？例如： A = pd.DataFrame({'KEY' : ['abc', 'abc', '123', 'wyz'], 'WEIGHT' : [5, 7, 13, 10] }) B = pd.DataFrame({'KEY': ['abc'

浏览 0提问于2022-06-14得票数 0

回答已采纳

5回答

如何使用python pandas从数据帧中删除重复的列

、

通过对两列进行分组，我做了一些更改。我使用python生成了一个文件，它产生了两个重复的列。如何从数据帧中删除重复的列？

浏览 0提问于2013-06-05得票数 10

2回答

在不同类型的大型数据帧中删除重复项的高效方法

、、、

假设我有这个数据帧： col1 col2 'a‘1,2,3 'a‘1,2,3 'b‘4,5,6 我想删除重复项(在本例中是前两行)。我如何以高效的Pythonic方式完成这项工作(我的完整数据帧有数百万行和7列)

浏览 5提问于2020-10-06得票数 1

回答已采纳

1回答

如何以平衡的方式进行drop_duplicates？

、、

我想以一种平衡的方式从数据帧中删除重复项。目前，df.drop_duplicates()有一个参数keep，您可以在其中决定保留第一个还是最后一个出现的内容。与此解决方案不同，我希望以一种分布式的方式保留事件。也就是说，我有这个数据帧，有两列:文本和类别，看起来很平衡，但有重复项：再次应用drop_duplicates()并绘制，将如下所示： df = df.drop_duplicates(subset='text') df['Category'].value_counts().plot(kind='bar') 预期的结果将是

浏览 20提问于2021-03-08得票数 0

1回答

pandas删除重复项不返回已删除重复项的数据帧

、、

我有一个数据框架： df = pd.Dataframe({'src':['A','B','C'],'trg':['A','C','B'],'wgt':[1,3,7]}) 我希望从此数据帧中删除列src和trg的重复项 df = df.drop_duplicates(subset=['src','trg'],keep='first',inplace=False) 这将删除src=A和trg='A&#

浏览 0提问于2020-03-02得票数 0

3回答

删除spark数据帧中重复的所有记录

、、、、

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.10。

浏览 4提问于2018-04-10得票数 5

回答已采纳

2回答

xquery:如何获取节点的不同值

、、

我想知道是否有类似于distinct-values的Xquery函数，但它返回一个节点。让我说得更清楚:例如，我有一个参考书目，对于其中的每个作者，我想列出他写的所有书籍。我的特定案例中的author元素如下所示： <author> <last> Shakespear </last> <first> William </first> </author> 在author上使用distinct-values将返回ShakespearWilliam，据我所知，这并没有帮助。我想要一个保留元素作者结构而不考虑重复的函数。

浏览 0提问于2012-10-02得票数 3

回答已采纳

3回答

存储多个数据帧的有效方法？

、、、

我正在将几个文件一起读取到一个数据帧列表中，以便能够将函数应用到合并的数据中，但是当我有太多的数据帧时，我遇到内存分配问题(“错误:r不能分配内存”)。例如，读取的数据帧的可变数目，让我们现在假设3个数据帧： x = data.frame(A=rnorm(100), B=rnorm(200)) y = data.frame(A=rnorm(30), B=rnorm(300)) z = data.frame(A=rnorm(20), B=rnorm(600)) listDF <- list(x,y,z) 错误:r不能分配内存我想知道这里是否有人知道，例如，一个数组还是一个包含多列的单个

浏览 3提问于2016-08-29得票数 2

回答已采纳

1回答

根据特定列值丢弃pandas中的半重复行

我有一个数据帧，除了一个列值之外，我有一个重复的行，如果id相同，我想删除值为"None“的行(不是所有行都是重复的) a b 1 1 None 2 1 7 3 2 2 4 3 4 我需要删除第一行，其中包含重复的(1)，并且b的值为None。

浏览 6提问于2020-12-11得票数 1

回答已采纳

3回答

如何使用熊猫移除重复值并保存任何一个

、

我有一个数据帧，看起来： A B C D E a aa 1 2 3 b aa 4 5 6 c cc 7 8 9 d cc 11 10 3 e dd 71 81 91 作为行(1,2)和行(3,4)具有重复的column B值。我只想留下其中一个。最后的产出应是： A B C D

浏览 1提问于2020-10-03得票数 2

回答已采纳

1回答

如何在Pandas中比较两个数据帧并删除数据帧中不匹配的行？

我是python (尤其是熊猫)的新手。我有两个数据帧df1和df2。df1有200行。df2有250行。索引值也包含重复项。 df1: ProcessID 248 436 500 500 另一个数据帧 ProcessID Day Time Status 248 Sun 23:26:51 completed 436 Sat 01:50:56 completed 500 Thu 14:18:21 completed 500 Wed 23:00:15

浏览 3提问于2018-04-08得票数 0

4回答

从数据帧python中的行和列(单元格)中删除重复项

、、

我有两列数据帧中的每个单元格都有很多重复的项。类似如下的内容： Index x y 1 1 ec, us, us, gbr, lst 2 5 ec, us, us, us, us, ec, ec, ec, ec 3 8 ec, us, us, gbr, lst, lst, lst, lst, gbr 4 5 ec, ec, ec, us, us, ir, us, ec, ir, ec, ec 5 7 chn, chn, chn, ec, ec, us, us, gbr, lst 我需要消除

浏览 59提问于2018-01-04得票数 10

回答已采纳

1回答

C#有效地检查剪贴板是否包含重复项

、

我有一段代码，可以一次将30个字符串从随机更新的数据源复制到剪贴板中；有时会在不到一秒的时间内复制超过100个新字符串，有时会有几分钟没有更新。我想通过套接字将所有字符串发送到数据库。在不发送重复的情况下，通过套接字发送字符串的最有效方法是什么？

浏览 1提问于2012-11-23得票数 0

回答已采纳

2回答

为什么我的熊猫数据帧使用了这么多内存？

、、、、

我有一个json文件目录要读取，所以我使用以下代码： test_filelist = os.listdir('myDir') df_test_list = [pd.read_json( os.path.join('myDir',file),lines=True ) for file in test_filelist if file.endswith('json') ] df_test = pd.concat(df_test_list) 我的目录的总大小是4.5G，但是当我使用top检查我的进程使用的内存时，我发现这个进程在完成读取时使用了30

浏览 4提问于2018-07-26得票数 1

2回答

根据一定的条件删除重复

、、、

我有一个数据帧，上面有重复的ids。我想从count列中删除基于特定条件的重复项。基本上，只保留具有最高计数的ids。此外，如果在count列中存在所有值都相同的重复项，只需保留第一个。 DataFrame： ID Status Count 12 Match 2 12 NotMatch 1 13 MaybeMatch 3 14 NotMatch 2 15 NotMatch 3 16 Match 2 16 NotMatch 1 17 Match 1 17 MaybeMatch 2 18

浏览 0提问于2018-07-10得票数 0

1回答

在将数据帧转换为矩阵时，有没有办法将每列的所有对象类型都保留在数据帧中？

、、

我想把数据帧转换成R中的矩阵。数据帧有30多个不同类型的变量，一些是数字的，一些是因子的，还有一些是字符的。在将其转换为矩阵时，我希望保持所有类型与数据帧中的类型完全相同。我尝试使用as.matrix()对其进行转换，请参见下面的代码(这只是一个只有两个变量的简单示例数据帧)。 test_df <- data.frame(a = c(1:10), b = c(letters[1:10])) test_df <- as.matrix(test_df) typeof(test_df[,1]) typeof(test_df[,2]) 示例中的列'a‘的类型为整型，而列'

浏览 15提问于2019-06-10得票数 0

回答已采纳

1回答

requirejs vs google javascript闭包依赖管理

、、、

我已经将google javascript闭包库用于各种组件，我还使用了它的依赖管理。我很好奇，这与使用requirejs进行依赖管理相比有何不同。具体地说，是否有特殊的理由选择其中一个而不是其他？如果我使用的是google closure库，会不会有一个逻辑上的理由去使用requirejs来管理依赖，而不是使用closure依赖管理呢？是否有要求遵循闭包不遵循的标准？

浏览 1提问于2012-12-16得票数 7

3回答

列出R中数据帧中的所有不同字符串

、、

我还是个R的新手，我想不通。我有一个数据帧，看起来像这样： Age State Diagnosis 12 Texas Lung Cancer 67 California Colon Cancer 45 Wyoming Lung Cancer 36 New Mex. Leukemia 58 Arizona Colon Cancer 35 Colorado Leukemia 我需要一个程序，以某种方式打印或添加到另一个数据帧中的所有不同的字符串，位于每一列。所以我

浏览 27提问于2020-04-17得票数 4

回答已采纳

1回答

如何使用dplyr在R中创建一个显示大型csv文件中最大值的表？

、、

我有一个非常大的csv文件，我试图找出一个值在一列中重复的次数。csv文件im使用：这就是我一直在尝试做的事情。 library(dplyr) repeatedcomposers<-table(ny_philarmonic$composerName) 这是可行的，但只给了我1000个值，而不是数据帧中的2767个作曲者。我还需要它来创建单独的数据帧，以便以后可以使用它。

浏览 0提问于2021-06-04得票数 0

3回答

SharePoint 2007:列表理论问题

、

我正在写一个关于MOSS 2007的解决方案。并且在列表中存储相当大量的数据。我的第一个问题是:列表可以处理大量的数据吗--大约20万条。现在我已经读过了，列表的限制似乎是视图可以显示的项数(2000)。所以问题是:这是一个建议还是一个真正的限制？没有任何文档真正证实了这一点。第二个问题，如果视图可以显示的项目数量受到物理限制，这是否意味着不可能在包含大量数据的sharepoint列表中检查重复项？从这个意义上说，要执行wsList.getListItems，您必须传递一个视图(如果列表包含100000条记录，而视图只能包含2000条记录)，如何可能检查重复项？谢谢

浏览 2提问于2009-11-04得票数 1

回答已采纳

13回答

python pandas:按列A删除重复项，将值最高的行保留在列B中

、、

我有一个数据帧，其中A列有重复的值。我想删除重复项，将值最高的行保留在B列。所以这就是： A B 1 10 1 20 2 30 2 40 3 10 应该变成这样： A B 1 20 2 40 3 10 Wes添加了一些很好的功能来删除重复项：。但是AFAICT，它是为精确复制而设计的，所以没有提到选择保留哪些行的标准。我猜可能有一种简单的方法可以做到这一点-也许就像在删除重复数据之前对数据帧进行排序一样简单-但我不太了解groupby的内部逻辑，无法弄清楚它。有什么建议吗？

浏览 3提问于2012-09-19得票数 239

回答已采纳

2回答

删除R中每个字符串上的重复值

、

我有一个包含两列的数据帧： VAR1. VAR2. A. 102 million; 102 million B. 0.1 million; 2 million; 0.1 million; 2 million 我想删除VAR2的重复值。对于每一行，获取 VAR1. VAR2. A. 102 million B. 0.1 million; 2 million 我该怎么做呢？谢谢你的建议。

浏览 0提问于2019-05-27得票数 1

3回答

存储和使用内存过大的数据帧的最佳实践？

、

我正在处理一个很大的数据帧，并且遇到了RAM限制。此时，我可能需要使用磁盘上的序列化版本。有支持内存溢出操作的，但我不确定哪一个适合我的需求。我更喜欢把所有东西都放在数据帧中，所以ff包看起来很不错，但仍然存在一些我无法解决的兼容性问题。当您意识到您的数据已达到内存不足的规模时，第一个要使用的工具是什么？

浏览 1提问于2009-12-10得票数 25

回答已采纳

2回答

如何在数据帧的一列中存在重复项的情况下删除数据帧中的行

嗨，亲爱的，我有一个在列中有重复的数据帧的小问题。我想删除列中出现重复项的行。例如，我的数据帧是这样的： Value City Card.Type ID 100 Michigan Silver 001 120 Angeles Gold 002 NA Kansas Gold 002 500 Michigan Silver 001 800 Texas Basic 005 您可以看到，在ID列中有两个副本，一个用于001，另一个用于002。我正在使用unique函数，但我无法删除重复

浏览 0提问于2013-04-14得票数 1

回答已采纳

1回答

pandas合并两个没有重复行的数据帧

、、

我有两个数据帧： test1 = pd.DataFrame({'Gene':['WASH7P', 'WASH7P', 'VCZ'], 'TPM':[10.034, 0.234000, 2.345]}) test2 = pd.DataFrame({'Gene':['WASH7P', 'WASH7P', 'btt'], 'TPM':[1.12345, 2.300, 0.00000]}) 我想将它们合并到一个数据帧中。我试过了： df = p

浏览 0提问于2021-02-20得票数 0

1回答

NIFI在SQL数据库中插入大型CSV

、

我试图将大数量的大CSV文件插入到数据库中。我是用PutDataBaseRecord处理器来完成这个任务的，这使得这个过程非常快速和简单。问题是，我不知道如何正确处理故障，例如，如果值与列的数据类型不匹配，或者行是重复的。如果发生这种情况，PutDataBaseRecord处理器将丢弃它刚刚从CSV文件中转换出来的批处理的所有记录。因此，如果一个记录2.000.000失败，2.000.000记录中没有一个记录会进入数据库。通过事先清理CSV数据，我设法修复了一个问题源，但我仍然遇到重复行的问题。我试图通过将CSV分割成NIFI中的单个行来修复这个问题，然后将它们传递到PutDatabas

浏览 0提问于2018-09-04得票数 1

回答已采纳

1回答

Python条带方法在数据框列中不起作用

、、、

我有一个数据帧，其中一列是城市名称。为了检查是否有重复的值，我创建了一个df_hotels['city_name'].value_counts().sort_values。当我显示结果时，我可以看到我有重复的值，因为在一些城市的左边有一个空字符。You can check that。(正常情况下，我每行的计数为25 ) 问题是，当我尝试创建一个df_hotels['city_name'] = df_hotels['city_name'].str.strip() (或lstrip)时，它不能工作，左边的空字符仍然在那里。仅供参考:列类型是一个对

浏览 16提问于2021-09-24得票数 0

3回答

在R中合并两个无重复条目的数据帧

、、、

我有两个数据框，其中包含具有各自日期的行条目。数据框1包含2010至2017年间收集的观测值。 dates A 2010-01-01 21 2010-01-02 27 2010-01-03 34 ... 2017-12-29 22 2017-12-30 32 2017-12-31 25 数据框2包含2015至2020年间收集的观测值。 dates A 2015-01-01 20 2015-01-02 29 2015-01-03 34 ... 2020-12-29 22 2020-12-30

浏览 20提问于2021-09-27得票数 0

回答已采纳

1回答

如何显示DF中在python的一列中有重复值的所有行？

、、

我有两个数据帧，我正尝试基于一个列(df['Number and postcode'])合并它们。但是，该列有许多重复值，因此合并不起作用(它会给出这样的错误：#检查重复的值)。另一个问题是df1['Number and postcode']也可能有许多重复的值。我该如何解决这个问题呢？这是我使用的公式： merged = pd.merge(df, df1[{'TOTAL_FLOOR_AREA', 'Bedrooms'}],how = 'inner', on = df['Number and postco

浏览 5提问于2020-05-13得票数 0

1回答

希望每个id有一个值，每个id有多个值

、、、

我有一个数据帧，其中一个ID有多个赋值。但是我想要一个ID和一个最高的值给定的数据集Id。111班。地铁111号市区111号农村222号。农村333。市区333号Metro Here Metro> Urban>乡村，所以我想 Id。111班。地铁222号农村333。麦德龙。通过删除ids中的重复项

浏览 19提问于2021-11-01得票数 0

1回答

如何在python中有效地删除数据帧或csv文件中的所有重复项？

、

下面的表格包含在mytest.csv中，如下所示： timestamp val1 val2 user_id val3 val4 val5 val6 01/01/2011 1 100 3 5 100 3 5 01/02/2013 20 8 6 12 15 3 01/07/2012 19 57 10 9 6 6 01/11/2014 3100 49 6 12 15 3 21/12/

浏览 0提问于2014-04-04得票数 6

回答已采纳

1回答

如何在使用df.apply()时有效地保存正在进行的结果

、、

古鲁斯我尝试使用函数Process_Data()来处理来自数据帧'df‘的数据，如下所示： def Process_Data(row): ... return(row) def main(): ... df= df.apply(Process_Data, axis=1) 我想在处理数据帧'df‘中的每一行时将一些中间结果保存到一个文件中，最佳实践是什么？谢谢。

浏览 0提问于2017-10-19得票数 0

2回答

如何使用LINQ查找和删除集合中的重复对象？

、、、、

我有一个表示对象的简单类。它有5个属性(一个日期、两个小数、一个整数和一个字符串)。我有一个从CollectionBase派生的集合类，它是一个容器类，用于保存我的第一个类中的多个对象。我的问题是，我想删除重复的对象(例如，具有相同日期、相同小数、相同整数和相同字符串的对象)。是否有可以编写的LINQ查询来查找和删除重复项？或者至少找到他们？

浏览 2提问于2010-07-14得票数 7

回答已采纳

3回答

如何合并大数据帧和小数据帧？

、、

我有一个有100行的大型数据帧，结构是qtr_dates<datetime.date>，sales<float>，还有一个结构相同的小数据帧，少于100行。我想合并这两个df，这样合并的df将拥有来自小df的所有行，而其余的行将从大df中获取。现在我正在做这个 df = big_df.merge(small_df, on=big_df.columns.tolist(), how='outer') 但这是在创建具有重复qtr_dates的df。

浏览 18提问于2021-10-07得票数 0

回答已采纳

3回答

检查Pyspark Dataframe中的重复项

、、、

有没有一种简单有效的方法来检查python dataframe中的重复项(而不是删除它们)？我想检查数据帧是否具有基于列组合的dups，如果有，则使该过程失败。蒂娅。

浏览 7提问于2018-05-02得票数 9

回答已采纳

2回答

Panda对具有重复项的customerEmail列的合并

、、、

目的是从这个数据集中检测欺诈。我有两个数据帧，列如下： DF1customerEmail、客户电话、客户设备、客户添加、NoOftransactions、欺诈等(168,11) DF2customerEmail、交易etc、支付方式、订单状态等(623,11) customerEmail列在两个数据帧中都是通用的，因此合并customerEmail上的表是有意义的。问题是我在DF2中重复了customerEmail，而在DF1中没有引用。因此，当我使用以下命令合并时：：DF3 = pd.merge(DF1，DF2，on='customerEmail') 行和列的总大小为(

浏览 0提问于2020-08-27得票数 0

1回答

Python的内存模型/执行环境的简单、简洁的描述？

、、

当我学习C/C++时，我不仅学习了语言的语法和语言结构的语义，还学习了计算机如何执行程序。我学到了这样的东西：所有局部变量都在堆栈帧中声明，每次调用函数时都会分配堆栈帧。这些帧被一个接一个地放置在调用堆栈上，当函数返回时，它们被“解除”，从而迅速而有效地“破坏”该函数的局部变量。这反过来帮助我理解了为什么获取局部变量的地址并将其返回到调用函数是个坏主意。换句话说，理解C/C++的内存模型和代码执行的环境有助于更深入地理解如何编写正确的程序。另一个例子:malloc/新分配对象在“堆”(而不是堆栈)中，这两者都解释了为什么它们存在于分配它们的函数的末尾之后。此外，知道这些函数/关键

浏览 3提问于2016-04-01得票数 2

1回答

Pyspark dataframe连接的列名重复的很少，没有重复列的也很少

、、

我需要在我的项目中实现pyspark数据帧连接。我需要加入3个不同的案例。 1)如果两个数据帧具有相同的名称连接列。我加入如下所示。它消除了重复的列col1, col2。 cond = ['col1', 'col2'] df1.join(df2, cond, "inner") 2)如果两个数据帧具有不同的名称连接列。我加入如下所示。它按预期维护所有4连接列。 cond = [df1.col_x == df2.col_y, df1.col_a == df2.col_b] df1.join(df2, cond, "in

浏览 35提问于2019-12-03得票数 1

回答已采纳

1回答

如何在python中从dataframe中的所有表中删除重复项

我有一个数据帧与图纸的数量，我想删除重复从所有图纸。我使用下面的代码 df = df.drop_duplicates(subset='Month',keep='last') 在那之后我保存这个df df.to_excel(path,index=False) 但它只删除了第一页重复的内容，并且只显示一页

浏览 12提问于2019-09-23得票数 0

1回答

在SQL视图中从联合中删除重复项(蟾蜍)

、、、、

这是R到SQL的转换。我的观点是两种观点的结合。然后，我需要从2列中删除重复项。 DQC是DEF和DCF两种观点的结合。DEF和DCF具有相同的8列，顺序相同。我试过用CTE CREATE VIEW DQC_FINAL AS ( WITH CTE AS (SELECT RN=ROW_NUMBER() OVER (PARTITION BY ITEM, CODE), * FROM DQC ) SELECT ITEM, CODE FROM CTE WHERE RN > 1); 我不确定这是不是最好的选择。我只是尝试删除列项和代码中的任何重复项。工会本应该这样做的，但我没有得到正确的产出。

浏览 0提问于2019-10-04得票数 0

回答已采纳

4回答

内存高效替代rbind - in-place rbind？

、、

我需要rbind两个大的数据帧。现在我使用 df <- rbind(df, df.extension) 但我(几乎)立即耗尽了内存。我猜这是因为df在内存中保存了两次。将来我可能会看到更大的数据帧，所以我需要一些就地的rbind。所以我的问题是:在使用rbind时，有没有办法避免内存中的数据重复？我找到了这个使用SqlLite的，但我真的想避免使用硬盘作为缓存。

浏览 2提问于2011-08-17得票数 28

回答已采纳

2回答

左侧的数据帧合并添加额外的行

、、

我从csv文件创建了一个发票数据帧和多个主数据帧 invoice=pd.read_csv('rocaInv4.csv') soMstr=pd.read_csv('salesOfficeMstr.csv') custFreightMstr=pd.read_csv('customerCodeFreightMstr.csv') ratesMstr=pd.read_csv('freightMstr.csv') pfep=pd.read_csv('pfepMstr.csv') 根据material masters和cus

浏览 32提问于2020-01-03得票数 1

回答已采纳