腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
删除
多个
大型
CSV
文件
之间
的
重复
项
python-3.x
、
duplicates
我正在尝试找到从
大型
CSV
文件
中
删除
重复
项
的
最佳方法。我每个月都会收到大约5/6百万行
的
CSV
文件
。我需要调整这些列(我只需要一些列,我需要添加一些其他列)。这些
文件
还包含许多
重复
的
、不完整
的
行。我已经想出了一个python
的
解决方案,我使用一个集合,并检查每一行是否在集合中。并改变需要改变
的
东西。
浏览 5
提问于2018-08-13
得票数 0
2
回答
删除
多个
CSV
文件
之间
的
重复
项
python
、
csv
、
spreadsheet
、
opencsv
我有
多个
CSV
文件
,每个
CSV
文件
中有两列:我不知道最好
的
方法是
删除
链接和描述
的
所有副本,只留下一个,这样只剩下一个链接和描述
的
实例。如果我可以同时导入所有
CSV
文件
,那么有可能在
多个
CSV
文件
中出现一个链接。链接和描述是有一个副本将完全相同。谢谢!
浏览 3
提问于2020-05-07
得票数 0
回答已采纳
2
回答
删除
大型
.
csv
文件
中
的
重复
项
python
、
duplicates
、
duplicate-removal
我有一个这种格式
的
csv
文件
test1 1 20131211220159 123123我试图从这个
文件
中
删除
所有旧数据,并且只保留带有最新时间戳
的
数据。(上面的前两个应该
删除
,因为上一个时间戳大于前两个时间戳)。我想保存所有的测试数据,除非相同
的
测试和相同
的
单元在
浏览 1
提问于2014-01-14
得票数 2
回答已采纳
1
回答
在Python中操作
CSV
文件
python
、
file
、
parsing
、
csv
import
csv
writer=
csv
.writer(open('Names_NoDuplicates.
csv
', 'w'),delimiter=',') for row in reader: if row[0] n
浏览 1
提问于2015-11-17
得票数 0
3
回答
从
大型
csv
文件
中
删除
重复
项
python
、
python-3.x
、
pandas
、
csv
我有一个大约2400万行
的
大
csv
,我想缩小尺寸。下面是
csv
的
一个小预览:我想
删除
具有相同CIK和IP
的
行,因为我有一堆这样
的
文件
,它们占用了很大
的
空间,所以我想要找到一种有效
的
方法来
删除
重复
文件
。我已经做了测试有多少副本
的
CIK在那里,对于一些有超过100,000,这就是为什么我想削减那些
重复
。 我试过一些东西,
浏览 0
提问于2019-05-03
得票数 0
1
回答
如何将一列添加到
多个
具有不同值
的
.
csv
文件
python
、
csv
、
dataframe
我有以下场景:我有一个包含
多个
.
csv
文件
的
文件
夹,我最终希望合并并
删除
重复
的
文件
。 我目前遇到
的
问题是,我只想
删除
合并
文件
时产生
的
重复
项
。换句话说:一些单独
的
.
csv
文件
已经有了我不想
删除
的
重复
行。 为了实现这一点,我考
浏览 22
提问于2019-09-03
得票数 0
回答已采纳
1
回答
等同于熊猫df.drop_duplicates
的
C# Deedle?
c#
、
csv
、
duplicates
、
deedle
在Python 中,我可以使用以下命令轻松地在DataFrame中
删除
重复
项
:在C#或中有没有这样简单快速
的
东西呢?或者我需要遍历整个框架(从一个大
的
CSV
文件
)来
删除
重复
项
? 我使用
的
数据是从一个大约有40列和12k
浏览 1
提问于2014-07-06
得票数 0
2
回答
swi-prolog:如何按照子列表
的
第n个元素对列表进行排序,允许
重复
list
、
sorting
、
prolog
(我使用了“asserta”将一个包含
多个
列
的
大型
csv
文件
放入数据库。)是否有一种不
删除
重复
项
的
按列进行数字排序
的
方法?正如您从我
的
简单示例(按第二列/元素进行排序)中所看到
的
,predsort方法
删除
重复
项
。 我可以通过切换和移除一些列并使用msort来解决这个问题,但我在这里专门要求您提供一个替代方案。
浏览 3
提问于2014-08-04
得票数 5
回答已采纳
3
回答
Pandas处理
大型
CSV
数据
python
、
pandas
、
dataframe
我正在使用pandas处理至少8 8GB大小
的
大型
数据集。在我
的
理解中,分块整个
文件
将创建许多不同
的
数据帧。因此,使用我现有的例程,这只
删除
特定数据帧上
的
重复
值,而不是整个
文件
上
的
重复
值。 我需要
删除
基于“唯一键”列
的
整个数据集上
的
重复</em
浏览 33
提问于2020-03-11
得票数 3
回答已采纳
1
回答
使用Python将具有相同
文件
名模式(但实际
文件
名不同)
的
多个
TSV
文件
转换为
CSV
python
、
csv
一个
文件
夹中有
多个
tsv
文件
。我想将每个tsv
文件
转换为
csv
文件
,并将所有
csv
文件
合并为一个
大型
csv
文件
。customer_data = r"C:\Users\username\Desktop\folder\CustomerData_20201030031520.tsv" customer_data = pd.read_
csv
(customer_data,
浏览 29
提问于2020-10-30
得票数 0
1
回答
python pandas,
删除
用于任何DataFrame特定列
的
重复
功能,但有一个例外:
python
、
pandas
、
dataframe
、
csv
、
data-science
无论如何,我正在试图弄清楚如何为从.
csv
文件
读取
的
DataFrame
的
一个或
多个
列
的
所有单元格实现
删除
重复
项
功能,在python脚本中,您可以设置要在DataFrame
的
列
的
所有单元格中
删除
重复
项
的
符号,但有一个例外,当一个符号是一个单元格
的
唯一符号时,不要
删除
该符号
的
<e
浏览 1
提问于2021-04-05
得票数 0
2
回答
如何从visual studio web项目中
删除
重复
条目?
visual-studio
、
web-applications
、
projects-and-solutions
、
duplicates
我在一个
大型
团队中工作,有
多个
分支和合并,定期发生。
删除
Project中
的
项目(
删除
所有条目以及磁盘
文件
),然后从源代码管理中再次获取该
文件
并将其添加回去。卸载项目
文件
,查找
重复
项
,
删除</em
浏览 2
提问于2009-08-06
得票数 7
回答已采纳
3
回答
如何根据两列
删除
csv
文件
中
的
重复
项
?
python
我有一个这样
的
csv
文件
:adam stephensonjohn我想从这个
文件
中
删除
重复
项
,只得到:adam stephenson我写了这个脚本来
删除
基于姓氏
的
重复
<e
浏览 1
提问于2012-10-12
得票数 12
回答已采纳
1
回答
加快使用
重复
项
加载数据
的
速度- 250 GB
mysql
、
duplicates
、
innodb
、
load-data-infile
我正在寻找建议,是否有任何方法可以加快大约250 GB
的
数据导入到一个MySQL表(InnoDB)从8个源
csv
文件
约。每个30 GB。
csv
本身没有副本,但在
文件
之间
确实包含副本--事实上,所有8个
csv
文件
中都会出现一些单独
的
记录。因此,这些
重复
项
需要在过程中
的
某个时刻
删除
。我目前
的
方法创建了一个具有主键
的
空表,然后使用八个
浏览 1
提问于2015-07-14
得票数 0
1
回答
Pandas,仅当其他列中没有
重复
项
时才跨
多个
列
删除
重复
项
python
、
pandas
、
duplicates
对于
大型
数据集(>800,000条记录),需要跨
多个
列查找
重复
项
,但如果单独
的
列中没有
重复
项
,则将其
删除
。例如,在本例中,我们通过subset='Col2','Col3','Col4‘搜索
重复
项
,并在Col1中选择None: +------+------+------+------+| None | c | 2 |
浏览 15
提问于2021-03-26
得票数 1
回答已采纳
2
回答
从
大型
CSV
文件
中
删除
特定
的
CSV
列,并使用Perl复制行。
perl
我有一个
大型
的
CSV
文件
(300MB+),我只想使用Perl
删除
列2、3和6-8,并
删除
重复
的
行:注2:我添加了input.
csv
和output.
csv</em
浏览 0
提问于2022-03-14
得票数 1
回答已采纳
1
回答
MySql加载数据加密副本
php
、
mysql
、
csv
我有一个12000行90列
的
大型
CSV
文件
。但我一直收到这样
的
错误:我
的
CSV
在主键上有
重复
项
。我确信它在主键上没有
重复
项
。$sql = "LOAD DATA INFILE '/a_bysch_store (2)
浏览 1
提问于2014-04-30
得票数 0
3
回答
删除
重复
项
scala
、
csv
、
duplicates
我想从
CSV
文件
中
的
数据中
删除
重复
项
。第一列是年份,第二列是句子。我想
删除
句子
的
任何
重复
项
,而不考虑年份信息。val source = CSVFile("science.
csv
"); source ~
浏览 0
提问于2013-01-10
得票数 1
回答已采纳
1
回答
从
csv
中
删除
重复
项
python
、
csv
好
的
,我有一个
csv
文件
,我想
删除
重复
的
文件
。我有一个正常工作
的
代码示例,但我后来也尝试复制它,副本显示为空白,我相信是因为我用来
删除
重复
项
的
代码没有关闭
csv
文件
,然后再进行复制。如果我在
删除
重复
文件
之前复制该
文件
,它可以完美地工作。但我希望避免
删除
两个<
浏览 0
提问于2020-01-23
得票数 1
1
回答
如何根据
重复
日期和ID去除数据框行
r
、
date
、
duplicates
需要
删除
的
重复
项
总是出现在该对中
的
第一个,所以我在考虑以某种方式使用该信息来
删除
它们。我简化了下面的数据,以减少问题(注意:我正在寻找一个函数,可以在
大型
数据集中
删除
多个
重复
项
,而不必手动识别它们):到目前为止,我一直在尝试完成以下代码: test <- ea2[!duplicated(ea2[,c("PatientID", "SessionDate2
浏览 1
提问于2019-07-06
得票数 0
点击加载更多
相关
资讯
怎么批量删除多个文件中的图片?
DoubleKiller-快速易用的重复文件查找删除工具
删除数据重复项,Excel中的这3种方法简单高效
提升你的文件管理效率,使用批量修改文件名工具在线批量删除多个文件名称中的相同文字,轻松成为办公软件达人
文本处理方法:教你如何轻松批量删除多个文本文件中空白行的详细步骤
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券