开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

df.drop_duplicates()对数据帧不起作用

df.drop_duplicates()是一个用于数据帧去重的方法。它的作用是删除数据帧中的重复行。

具体而言，该方法会比较数据帧中的每一行，如果发现有两行或多行的数据完全相同，则只保留其中的一行，其余重复行将被删除。

这个方法在数据清洗和数据分析中非常有用。通过去除重复行，可以确保数据的准确性和一致性，避免重复计算和分析。

使用该方法时，需要注意以下几点：

默认情况下，该方法会比较数据帧中的所有列。如果只想比较特定列，可以通过subset参数指定需要比较的列。
默认情况下，该方法会保留第一次出现的重复行，而删除后续出现的重复行。如果想保留最后一次出现的重复行，可以设置keep参数为'last'。
该方法会返回一个新的数据帧，原始数据帧不会被修改。如果想在原始数据帧上进行修改，可以设置inplace参数为True。

以下是一个示例代码：

import pandas as pd

# 创建一个包含重复行的数据帧
data = {'A': [1, 2, 2, 3, 4],
        'B': ['a', 'b', 'b', 'c', 'd']}
df = pd.DataFrame(data)

# 使用drop_duplicates方法去重
df_unique = df.drop_duplicates()

# 打印去重后的数据帧
print(df_unique)

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云数据库 TencentDB：https://cloud.tencent.com/product/cdb
腾讯云云服务器 CVM：https://cloud.tencent.com/product/cvm
腾讯云对象存储 COS：https://cloud.tencent.com/product/cos
腾讯云人工智能 AI：https://cloud.tencent.com/product/ai
腾讯云物联网 IoT Hub：https://cloud.tencent.com/product/iothub
腾讯云移动开发 MSDK：https://cloud.tencent.com/product/msdk
腾讯云区块链 TBaaS：https://cloud.tencent.com/product/tbaas
腾讯云元宇宙 QCloud Metaverse：https://cloud.tencent.com/product/metaverse

请注意，以上链接仅供参考，具体产品选择应根据实际需求进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

介绍一种更优雅的数据预处理方法！

我们知道现实中的数据通常是杂乱无章的，需要大量的预处理才能使用。Pandas 是应用最广泛的数据分析和处理库之一，它提供了多种对原始数据进行预处理的方法。

03

学会这 29 个函数，你就是 Pandas 专家

Pandas 无疑是 Python 处理表格数据最好的库之一，但是很多新手无从下手，这里总结出最常用的 29 个函数，先点赞收藏，留下印象，后面使用的时候打开此文 CTRL + F 搜索函数名称，检索其用法即可。

02

python数据处理 tips

作者 | June Tao Ching 编译 | VK 来源 | Towards Data Science

03

软件测试|数据处理神器pandas教程（十五）

在数据处理和分析中，重复数据是一个常见的问题。为了确保数据的准确性和一致性，我们需要对数据进行去重操作。Pandas提供了一个功能强大的去重函数——drop_duplicates()，它可以帮助我们轻松地处理数据中的重复值。本文将详细介绍drop_duplicates()函数的用法和应用场景。

02

Python中重复值、缺失值、空格值处理

1、重复值处理把数据结构中，行相同的数据只保留一行。函数语法： drop_duplicates() 删除重复值newdf=df.drop_duplicates() from pandas import read_csv df = read_csv('D://PDA//4.3//data.csv') df #找出行重复的位置 dIndex = df.duplicated() #根据某些列，找出重复的位置 dIndex = df.duplicated('id') dIndex = df.duplic

07

软件测试|数据处理神器pandas教程（十一）

“去重”通过字面意思不难理解，就是删除重复的数据。在一个数据集中，找出重复的数据删并将其删除，最终只保存一个唯一存在的数据项，这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重，不仅可以节省内存空间，提高写入性能，还可以提升数据集的精确度，使得数据集不受重复数据的影响。

02

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解

03

Pandas数据框去重复（AB、BA类型）

从string-db下载蛋白质相互作用的信息，在处理时发现蛋白A与B互作被记录了两次比如下边的例子（即AB、BA）

06

Pandas重复值处理

import pandas as pd #生成数据 data1,data2,data3,data4=['a',3],['b',2],['a',3],['c',2] df=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2']) print(df) col1 col2 0 a 3 1 b 2 2 a 3 3 c 2 #判断数据 isDuplicated=df.duplicat

02

Python数据清洗--类型转换和冗余数据删除

数据分析过程中最头疼也是工作量最大的部分算是探索和清洗了，探索的目的是了解数据，了解数据背后隐藏的规律，清洗的目的则是为了让干净的数据进入分析或建模的下一个环节。作者将通过三篇文章，详细讲解工作中常规的数据清洗方法，包括数据类型的转换，重复数据的处理，缺失值的处理以及异常数据的识别和处理。这是第一篇文章，主要分享的内容包括，文中涉及到的数据可以至文末查看下载链接：数据类型的转换冗余数据的识别和处理

02

【数据分析可视化】通过去重进行数据清洗

import numpy as np import pandas as pd from pandas import Series,DataFrame # 读取刚刚分解处理完的返回数据 link_csv = '/Users/bennyrhys/Desktop/数据分析可视化-数据集/homework/demo_duplicate.csv' df = pd.read_csv(link_csv) df Unnamed: 0 Price Seqno Symbol time 0 0 1623.0 0.0 APPL

02

创建一个Spotify播放列表

作者 | Merlin Schäfer 编译 | VK 来源 | Towards Data Science

02

玩转 Pandas unique方法,告别数据重复烦恼

这是 pandas 快速上手系列的第 5 篇文章，本篇详细介绍了 unique 的使用和示例。pandas 库中的 unique 方法用于获取 DataFrame/Series 中唯一的值或记录。它通常用于查看数据中存在哪些唯一值、去重以及一些数据探索和清理任务。

00

来看看数据分析中相对复杂的去重问题

在数据分析中，有时候因为一些原因会有重复的记录，因此需要去重。如果重复的那些行是每一列懂相同的，删除多余的行只保留相同行中的一行就可以了，这个在Excel或pandas中都有很容易使用的工具了，例如Excel中就是在菜单栏选择数据->删除重复值，然后选择根据哪些列进行去重就好，pandas中是有drop_duplicates()函数可以用。但面对一些复杂一些的需求可能就不是那么容易直接操作了。例如根据特定条件去重、去重时对多行数据进行整合等。特定条件例如不是保留第一条也不是最后一条，而是根据两列存在的某种关系、或者保留其中最大的值、或保留评价列文字最多的行等。下面记录一种我遇到的需求：因为设计原因，用户在购物车下的单每个商品都会占一条记录，但价格只记录当次购物车总价，需要每个这样的单子只保留一条记录，但把商品名称整合起来。

02

数据清洗与准备（2）

有时候我们并不是想要过滤缺失值，而是需要补全数据。大多数情况下，主要使用fillna方法补全缺失值，调用该方法时，可以传入一个常数来替代缺失值。

01

收藏 | 提高数据处理效率的 Pandas 函数方法

作者：俊欣来源：关于数据分析与可视化前言大家好，这里是俊欣，今天和大家来分享几个Pandas方法可以有效地帮助我们在数据分析与数据清洗过程当中提高效率，加快工作的进程，希望大家看了之后会有收获。首先导入模块和读取数据，这回用到的数据集中有各种各样类型的数据,链接为：https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data import pandas as pd df = pd.read_csv("AB_NYC_2019.csv")

02

Python 使用pandas 进行查询和统计详解

在使用 Pandas 进行数据分析时，我们需要经常进行查询和统计分析。但是Pandas 是如何进行查询和统计分析得嘞, let’s go :

01

使用Python分析网易云歌曲评论信息，通过可视化处理我发现了这些有趣的规律

前几天有个学生娃子找我帮忙做点可视化的作业，作业内容包括采集网易云音乐热评评论内容，数据量1W作业足够，然后就是做点数据分析相关的工作即可。这份大作业里边有网络爬虫，有数据分析和数据处理，还有可视化，算是一个大实验了，还需要上交实验报告。这里拿出来部分知识点，给大家分享。学生娃的作业，参考了这个文章：网易云音乐评论爬取。

02

数据城堡参赛代码实战篇（四）---使用pandas合并数据表

小编们最近参加了数据城堡举办的“大学生助学金精准资助预测”比赛，分组第19名的成绩进入了复赛，很激动有木有！在上一篇文章中，小编主要介绍了pandas中使用drop_duplicates()方法去除重复数据。本篇，小编文文将带你探讨pandas在数据合并的应用。 1 上期回顾首先，小编带你回顾一下drop_duplicates()方法的使用，我们定义一个DataFrame如下： df=pd.DataFrame({'id':[1,1,2],'value':[5,10,12]}) print (df) 输出如

06

[数据清洗]- Pandas 清洗“脏”数据（二）

概要了解数据分析数据问题清洗数据整合代码了解数据在处理任何数据之前，我们的第一任务是理解数据以及数据是干什么用的。我们尝试去理解数据的列/行、记录、数据格式、语义错误、缺失的条目以及错误的格式，这样我们就可以大概了解数据分析之前要做哪些“清理”工作。本次我们需要一个 patient_heart_rate.csv （链接：https://pan.baidu.com/s/1geX8oYf 密码：odj0）的数据文件，这个数据很小，可以让我们一目了然。这个数据是 csv 格式。数据是描述不同个体在不

05

02.数据导入&清理1.导入csv文件2.导入文本文件3.导入EXCEL文件：4.解决中文路径异常问题5.导出csv文件6.重复值处理7.缺失值处理8.空格值处理

用pandas读取Excel文件时，如提示：ModuleNotFoundError: No module named 'xlrd'，因为Excel需要单独安装xlrd模块进行支持。

02

Pandas实战——灵活使用pandas基础知识轻松处理不规则数据

前几天在Python最强王者群【wen】问了一个pandas数据合并处理的问题，一起来看看吧。他的原始数据如下所示：

03

每日一问_02_使用Pandas做简单的数据处理分析

问题：请写出一个 Python 代码，使用 pandas 库读取一个 CSV 文件，然后进行数据清洗和分析。

03

数据整合与数据清洗

选择单列。可以直接用列名选择，也可以通过ix、iloc、loc方法进行选择行、列。

03

Python代码实操：详解数据清洗

在缺失值的处理上，主要配合使用 sklearn.preprocessing 中的Imputer类、Pandas和Numpy。其中由于Pandas对于数据探索、分析和探查的支持较为良好，因此围绕Pandas的缺失值处理较为常用。

02

Pandas实战——灵活使用pandas基础知识轻松处理不规则数据

前几天在Python最强王者群【wen】问了一个pandas数据合并处理的问题，一起来看看吧。他的原始数据如下所示：

01

数据分析索引总结（下）Pandas索引技巧

给index传入的字典,键是原来的索引值, 值是新的索引值。无需指定要修改的索引级别,会自动寻找索引中的相应的值----当不同层级的索引有相同的值的时候,这会造成混乱。

02

python的dropna函数_Pandas dropna（）函数不工作「建议收藏」

prison_data = pd.read_csv(‘https://andrewshinsuke.me/docs/compas-scores-two-years.csv’)

02

数据科学和人工智能技术笔记十九、数据整理（上）

“这个分组变量现在是GroupBy对象。除了分组的键df ['key1']的一些中间数据之外，它实际上还没有计算任何东西。我们的想法是，该对象具有将所有操作应用于每个分组所需的所有信息。” – PyDA

01

Python爬虫在数据整理中的技巧与实践

今天我想和大家分享一下关于爬虫数据的整理与处理的技巧，并介绍一些Python爬虫的实践经验。如果你正在进行数据工作，那么整理和处理数据是无法避免的一项工作。那么就让让我们一起来学习一些实际操作的技巧，提升数据处理的效率和准确性吧！

02

使用Pandas进行数据清理的入门示例

数据清理是数据分析过程中的关键步骤，它涉及识别缺失值、重复行、异常值和不正确的数据类型。获得干净可靠的数据对于准确的分析和建模非常重要。

06

零基础学编程039：生成群文章目录(2)

每个月的月底，“分享与成长群”要汇总所有成员的原创文章，这次我改用了水滴微信平台把数据采集到一个电子表格文件中。在《零基础学编程019：生成群文章目录》这一节里，我已经可以用读csv文本文件的办法，配

08

Pandas进阶修炼120题｜第一期

在『Pandas进阶修炼120题』系列中，我们将对pandas中常用的操作以习题的形式发布。从读取数据到高级操作全部包含。如果你是新手，可以通过本系列完整学习使用pandas进行数据处理的各种方法，如果你是高手，欢迎留言给出与答案的不同解法。本期先来20题热身吧！

01

Tensorflow小技巧(一)

To select rows whose column value equals a scalar, some_value, use ==:

05

python 去除重复行

from pandas import read_csv; df = read_csv('D://PA//4.3//data.csv') newDF = df.drop_duplicates();

02

使用astype实现dataframe字段类型转换

在有些情况下，我们需要在DataFrame类型的数据中通过切片获得我们所需要的数据，然后转换为我们所需要的类型。Dataframe数据类型的转换需要用到astype函数。

02

利用Python统计连续登录N天或以上用户

在有些时候，我们需要统计连续登录N天或以上用户，这里采用python通过分组排序、分组计数等步骤实现该功能，具体如下：

03

使用Python在Neo4j中创建图数据库

图数据库的一个最常见的问题是如何将数据存入数据库。在上一篇文章中，我展示了如何使用通过Docker设置的Neo4j浏览器UI以几种不同的方式之一实现这一点。

03

用python制作疫情动态图

之前发了一个国外疫情发展视频，有朋友问怎么制作的，今天就写一下制作过程，非常简单，如果你学会了，以后只要获取了数据就可以制作各种类似的动图。

02

用数据分析网络暴力有多可怕

潘老师是在17时发出微博的，但是那时并没有大量的评论出现，那个小时一共有1237条评论。

02

Python中的DataFrame模块学

python 3.6.8 Windows x86 executable installer

01

Python科学计算：Pandas

在数据分析工作中，Pandas的使用频率是很高的，一方面是因为Pandas提供的基础数据结构DataFrame与json的契合度很高，转换起来就很方便。另一方面，如果我们日常的数据清理工作不是很复杂的话，你通常用几句Pandas代码就可以对数据进行规整。

01

（数据科学学习手札06）Python在数据框操作上的总结（初级篇）

数据框（Dataframe）作为一种十分标准的数据结构，是数据分析中最常用的数据结构，在Python和R中各有对数据框的不同定义和操作。 Python 本文涉及Python数据框，为了更好的视觉效果，使用jupyter notebook作为演示的编辑器;Python中的数据框相关功能集成在数据分析相关包pandas中，下面对一些常用的关于数据框的知识进行说明： 1.数据框的创建 import pandas as pd from numpy import random a = [i for i in rang

05

pandas数据清洗，排序，索引设置，数据选取

df.isnull() df的空值为True df.notnull() df的非空值为True

02

强烈推荐Pandas常用操作知识大全！

https://github.com/SeafyLiang/Python_study

02

手把手教你使用Pandas从Excel文件中提取满足条件的数据并生成新的文件（附源码）

前几天在Python星耀交流群有个叫【蒋卫涛】的粉丝问了一个Python自动化办公的题目，这里拿出来给大家分享。

05

Python pandas十分钟教程

Pandas是数据处理和数据分析中最流行的Python库。本文将为大家介绍一些有用的Pandas信息，介绍如何使用Pandas的不同函数进行数据探索和操作。包括如何导入数据集以及浏览，选择，清理，索引，合并和导出数据等常用操作的函数使用，这是一个很好的快速入门指南，如果你已经学习过pandas，那么这将是一个不错的复习。

05

Python语言做数据探索教程

本文总结Python语言做数据探索的知识。类似Ｒ语言做数据探索，利用Python语言做数据探索。 1 数据导入 2 数据类型变换 3 数据集变换 4 数据排序 5 数据可视化 6 列联表 7 数据抽

05

pandas操作excel全总结

pandas是基于Numpy创建的Python包，内置了大量标准函数，能够高效地解决数据分析数据处理和分析任务，pandas支持多种文件的操作，比如Excel，csv，json，txt 文件等，读取文件之后，就可以对数据进行各种清洗、分析操作了。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭