如何用python去除csv中的重复/重复行？

文章/答案/技术大牛

发布

2回答

、、、、

我正在用python抓取网页，并将数据转换成如下所示的.csv文件。如果我追加到文件中，可能会有一些重复/重复的数据。为了避免这种情况，我可以使用什么？我不确定pandas是否应该在pandas中打开文件，然后删除副本。我尝试了我自己的其他方法，但无法提出解决方案。我在考虑把熊猫作为最后的选择 Date,Time,Status,School,GPA,GRE,GMAT,Round,Location,Post-

浏览 51提问于2021-05-20得票数 0

回答已采纳

1回答

当CSV内容读取为列表时，pandas read_csv()返回带有.1和.2的重复条目

、

我正在使用pandas read_csv()方法将CSV文件的第一行读入列表，如下所示。target_df = pandas.read_csv(file_absoulte_path, nrows=0, engine='python').columns.tolist()现在，目标CSV文件也具有相同的<

浏览 2提问于2021-07-15得票数 1

4回答

如何用linux工具，如grep，sort，sed，uniq来完全删除重复行？

、、、、

如何用linux工具，如grep，sort，sed，uniq来完全删除重复行？这个问题真的很难写，因为我看不到任何东西可以赋予它意义。但这个例子显然是直截了当的。如果我有一个这样的文件： 124 在解析文件后，删除重复的行，如下所示： 14 我知道python或其中的一些，这是我写来执行它的python脚本。，删除行似乎更容易

浏览 122提问于2016-12-02得票数 4

回答已采纳

1回答

pandas read_csv()从CSV内容返回带有.1和.2的重复条目

、、

我正在使用pandas read_csv()方法将CSV文件的第一行读入列表，如下所示。imagine, expected_columns=["NewYork","Sydney","Sydney","Sydney"] 现在，目标CSV文件也具有相同的列，如"NewYork“、"Sydney所以，基本上read_csv是从第二个重复<em

浏览 3提问于2021-07-23得票数 0

1回答

如果熊猫有重复的值，如何使用它们合并行？

、、、

我的数据有一个特殊的例子，我在任何文档或堆栈中都找不到答案。在许多行中都会有MPN的重复，如第一个图像所示。显然，我希望删除具有相同MPN的重复行，但是将图像1中显示的三行的分类值合并到一个单元格中，如图2所示，这将是我编码后想要的结果。我想要的</em

浏览 0提问于2019-07-29得票数 0

1回答

如何在mysql中不使用临时表进行重复删除

当Mysql表中只有一列时，如何去除重复mysql> select * from EMP ;| id || 10 || 10 || 20 |+------+ 我需要在删除重复项后的行。需要delete查询来删除mysql中的重复项

浏览 5提问于2019-07-17得票数 0

2回答

pandas如何在dataframe中消除不同顺序的同值重复行

、

如何去除df中的重复项？df只有1列。在这种情况下，"60,25“和"25,60”是一对重复的行。输出应该是新的df。对于每一对重复的行，保留的行格式为"A，B“，其中A< B，删除的行应为A>B。对于唯一行，它应该保持不变。

浏览 2提问于2018-08-27得票数 0

2回答

从引号中解开.csv行

、、

.csv文件如下所示"a, b, c"我想解开引号中的行以正确读取pandas/Python中的文件。如R中的重复问题所述，可以读取.csv数据两次: 1)展开辅助数据帧的第一列中的数据，以及2)调用辅助数据帧的<

浏览 0提问于2018-12-15得票数 1

1回答

python文件元素排序和省略复制

、、、

我已经编写了一个python脚本，它创建了一个包含三行数字的文本文件；9.06 14.08 39.56 NaN ,4.54 307.653.85 61.22 90.14 108.13 ,6.13 400.50对于排序，我尝试过使用df.sort_values，但不知道

浏览 0提问于2018-11-03得票数 0

回答已采纳

1回答

如何分析哪组十个数字是重复的？(乐透)

、、、

如何分析哪组十个数字是重复的？如何在EmEditor文本编辑器中实现？03,04,05,09,12,15,20,24,26,28,31,33,35,37,43,48,64,70,72,75 06,05,07,10,12,15,21,24,30,28,31,39,35,37,43,49,64,70,72,76 CSV

浏览 31提问于2019-05-20得票数 -1

2回答

使用python* Pandas进行数据重排|根据重复索引创建列，并填充列值*

、、、

将python csv数据重新排列为行和不同的列我有csv数据库，其中包含以下格式的姓名和好友列表。 ? 预期输出如下:名称和值在一行中，重复列数与名称重复数相同。 ? 执行此输出的最佳方法是什么？

浏览 47提问于2019-02-02得票数 1

回答已采纳

2回答

使用Python从csv文件行中删除重复项

、、、

我是Python新手，我试着做以下工作。,japan,new zealandfrom collections import OrderedDict out = open ("output.

浏览 0提问于2014-11-11得票数 0

回答已采纳

1回答

删除多个大型CSV文件之间的重复项

、

我正在尝试找到从大型CSV文件中删除重复项的最佳方法。我每个月都会收到大约5/6百万行的CSV文件。我需要调整这些列(我只需要一些列，我需要添加一些其他列)。这些文件还包含许多重复的、不完整的行。我已经想出了一个python的解决方案，我使用一个集合，并检查每一行是否在集合中。并改变需要改变的东西。现在，我得到了第二

浏览 5提问于2018-08-13得票数 0

1回答

如何用R去除重复的数据少的行？

、

-05-22 12:20:03,tp我想删除重复的行如果我执行data <- unique(data, by = NULL)，那么只删除最后一行(第7行)，但我还想删除第2行。定义键 setkey(data, row,or,d,ddate,rdate,changes,class,price,fdate,number,minute

浏览 3提问于2015-03-31得票数 1

1回答

读取CSV并根据两个(多个)列中的值删除重复的值

、、、

使用Python3，我有一个csv文件，我想要读取并删除重复项的“特殊”情况。该脚本应将已消除重复数据的csv输出到csv，同时考虑标头。ID Name HeaderX HeaderY HeaderZ ...1 A这里有ID=1和ID=2的重复

浏览 1提问于2013-06-21得票数 2

回答已采纳

1回答

删除带有附加条件的pandas where中的“重复行”

、、

在Jezrael的帮助下，我可以编辑我的python脚本：import globos.chdir("files") combined_csv_final.to_csv("combined_csv</e

浏览 0提问于2020-01-02得票数 1

1回答

用python将浮点数一分为二

、、

我正在处理一个csv表转换从pdf与acrobat。由于某种原因，该软件每117行创建重复错误。它“复制和连接数字”，例如一行。7307 1 87.173077307 11 87187.1 我如何用python“修正”这些行？我需要在中间分割浮子，并抹去上半场。我读过几个关于截断的线程，但它们中的大多数都需要用小数点拆分浮点数，或者只处理整数。数据类型将是float64，因为

浏览 1提问于2015-02-11得票数 0

回答已采纳

1回答

如何根据另一个CSV文件中的值和该值的存在从CSV文件中删除行

、

基本上，我下载的数据集包含重复的人员，我使用sort删除了这些人，但是那些重复的行也在另一个csv文件中引用，我想删除这些行。以下是概述；三个CSV文件：personID,personName[...]jobID,jobName[...]personID,jo

浏览 3提问于2016-01-14得票数 0

回答已采纳

1回答

在熊猫中加载csv文件会生成副本。

、、

我有一个包含2741行和279列的.csv文件：当我尝试使用pd.read_csv()在python中加载该文件时，我得到了以下结果：/usr/local/lib/python3.7/dist-packages/IPython/core

浏览 8提问于2022-04-01得票数 0

1回答

如何将结果从一个变量转移到excel中的列？

、

我希望将duplicates中的值添加到列Name中，以便print(data["Name"])可以返回duplicates包含的所有值。我如何才能做到这一点？小故事:我正在导入一个csv文件，我需要拆分列Name以去除无意义的信息，然后我使用列表理解来查找重复项。data = pd.read_csv(next(iglob('*.csv'))) data["Name&

浏览 0提问于2019-06-05得票数 0

点击加载更多