首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【Python】基于某些列删除数据框中的重复值

    subset:用来指定特定的列,根据指定的列对数据框去重。默认值为None,即DataFrame中一行元素全部相同时才去除。...默认值False,即把原数据copy一份,在copy数据上删除重复值,并返回新数据框(原数据框不改变)。值为True时直接在原数据视图上删重,没有返回值。...从结果知,参数为默认值时,是在原数据的copy上删除数据,保留重复数据第一条并返回新数据框。 感兴趣的可以打印name数据框,删重操作不影响name的值。...结果和按照某一列去重(参数为默认值)是一样的。 如果想保留原始数据框直接用默认值即可,如果想直接在原始数据框删重可设置参数inplace=True。...但是对于两列中元素顺序相反的数据框去重,drop_duplicates函数无能为力。 如需处理这种类型的数据去重问题,参见本公众号中的文章【Python】基于多列组合删除数据框中的重复值。 -end-

    20.5K31

    【Python】基于多列组合删除数据框中的重复值

    最近公司在做关联图谱的项目,想挖掘团伙犯罪。在准备关系数据时需要根据两列组合删除数据框中的重复值,两列中元素的顺序可能是相反的。...本文介绍一句语句解决多列组合删除数据框中重复值的问题。 一、举一个小例子 在Python中有一个包含3列的数据框,希望根据列name1和name2组合(在两行中顺序不一样)消除重复项。...二、基于两列删除数据框中的重复值 1 加载数据 # coding: utf-8 import os #导入设置路径的库 import pandas as pd #导入数据处理的库...import numpy as np #导入数据处理的库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径 df =...从上图可以看出用set替换frozense会报不可哈希的错误。 三、把代码推广到多列 解决多列组合删除数据框中重复值的问题,只要把代码中取两列的代码变成多列即可。

    14.7K30

    【数据分析 R语言实战】学习笔记 第三章 数据预处理 (下)

    3.3缺失值处理 R中缺失值以NA表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is.na()它可以应用于向量、数据框等多种对象,返回逻辑值。...(salary)) [1] 4 另一个判断缺失值的函数是complete.cases(),它同样返回逻辑值向量,但值与is.na()的相反:缺失值为FALSE,正常数据为TRUE,利用它来选取无缺失数据的行非常方便...by指定合并的依据(相同的行或列) by.x by.y分别为第一个数据框和第二个数据框要连接的列名 all, all.x, all.y逻辑值,默认为FALSE。...>t (data) 3.5.1揉数据函数 R中有两个揉数据函数stack()和unstack|(),用于数据长格式和宽格式之间的转换. stack()把一个数据框转换成两列:一列为数据,另一列为数据对应的列名称...melt本身的意思是溶解、分解,其作用在一个数据集上其实就是拆分数据,它的对象一可以是数组(array )、数据框或列表。

    2K20

    十、文件读写

    " 5).将soft导出为csv write.csv(soft,file = "soft.csv") ###右上角环境中刚好出现了一个soft.csv的文件,并且刚好与数据框soft中的内容一样...#####Rdata是矩阵, 也可以是数据框、列表等任何形式的文件 Error in y$gene1 : $ operator is invalid for atomic vectors class(y...mean(y[,1]) [1] NA Warning message:In mean.default(y[, 1]) : 参数不是数值也不是逻辑值:回覆NA y[,1] GSM1 GSM2..."49" [1] NA Warning message:In mean.default(y[, 1]) : 参数不是数值也不是逻辑值:回覆NA ###转换不成功,y是矩阵,字符型矩阵。...###只有把整个矩阵转换成数据框。但是y中有字符型向量,有数值型向量,所以本身文件有问题,平时自己处理文件的时候直接输出为数据框、列表都可以。不保存为矩阵。

    1.8K40

    从零开始的异世界生信学习 R语言部分 02 数据结构之数据框、矩阵、列表

    df1) #输出行名 colnames(df1) #输出列名 数据框取子集 数据主要操作为按列取子集,取出来的为向量;按行去子集取出的仍为数据框。...## 中括号中的逗号表示维度的分隔 ## 按名字 df1[,"gene"] df1[,c('gene','change')] ## 按条件(逻辑值) df1[df1$score>0,] ## 代码思维..."r2","r3","r4") #只修改某一行/列的名 colnames(df1)[2] <- "CHANGE" # | 或符号前后不可以连接字符,只能用于数字,逻辑值 两个数据框的连接 test1 的数据框中,保留test1中保留选中的name列中的所有元素,新的数据框中没有的数据显示NA,sort表示按列排序 merge(test1,test3,by.x...='name',by.y = 'NAME', all.y = TRUE,sort = T)#右连接,即新合并的数据框中,保留test3中保留选中的name列中的所有元素,新的数据框中没有的数据显示NA,

    1.8K20

    Day——5 数据结构

    根据值取 x[x==10] #等于10的元素 x[x<0] #负数 x[x%in%c(1,2,5)] #存在于向量c(1,2,5)中的元素 数据框 (1)read.table()常见参数 header...逻辑值,指示表格是否包含文件第一行中的变量名称 sep 分隔数据值的分隔符。...na.strings 指示缺失值代码的可选字符向量。例如,na.strings = c(“9”,“?”)转换每个9和?读取数据时的值为NA colClasses 分配给列的类的可选向量。...X数据里有doudou.txt 注意这里的变量X是一个数据框 colnames(X) #查看列名 rownames(X) #查看行名,默认值的行名就是行号...,并且支持Tab自动补全哦,不过只能提取一列) (6)直接使用数据框中的变量 plot(iris$Sepal.Length,iris$Sepal.Width) #iris是R语言的内置数据,可以直接使用

    17330

    R语言数据分析利器data.table包 —— 数据框结构处理精讲

    版权声明:本文为博主原创文章,转载请注明出处     R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。...因此,在对大数据处理上,使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。...将一个R对象转化为data.table,R可以时矢量,列表,data.frame等,keep.rownames决定是否保留行名或者列表名,默认FALSE,如果TRUE,将行名存在"rn"行中,keep.rownames...; na.strings,对NA的解释; file文件路径,再确保没有执行shell命令时很有用,也可以在input参数输入; stringsASFactors是否转化字符串为因子, verbose...roll 当i中全部行匹配只有某一行不匹配时,填充该行空白,+Inf(或者TRUE)用上一行的值填充,-Inf用下一行的值填充,输入某数字时,表示能够填充的距离,near用最近的行填充 rollends

    5.9K20

    R编程(二:基本数据类型及其操作之因子、矩阵、数据框和列表)

    > a <- c(100, 10, 1000) > order(a) [1] 2 1 3 处理缺失值 na.omit(df) ,直接将含有缺失值的行去除。...另外,tibble类型允许其中的列是列表类型, 这样, 该列的每个元素就可以是复杂类型, 比如建模结果(列表), 元素之间可以保存不等长的值。...R 会为每个独立的向量分配一个整数,创建一个value-label 对,value 对应向量中的元素,label 对应分配的数字。...:775.4 比较factor 中的变量 对于有条件关系的因子中的变量,ordinal variables,则会返回一个判断的布尔值。...列表的提取也可以按照类似数据框的方式提取。、 需要注意的是,列表用一个中括号提取内容,会返回一个列表,列表中包含提取的内容,只有用两个中括号,才会返回该内容本来的格式。

    2.8K20

    R 数据整理(六:根据分类新增列的种种方法 1.0)

    也就回到了开始创建的数据框test。 separate&&unite 将同一列中的内容分为两列内容。或将两列内容合并为同一列内容。 首先还是可以创建一个数据框。...到底需不需要引号,对于要处理的列(无论分离还是合并)不用;对于待生成的列则需要。 处理缺失值 创建一个存在NA 的数据框。...3 C 3 4 NA> 4 5 E 5 直接去除 drop_na 如果直接对数据框进行 drop_na 其效果和基础包中的 na.omit() 是一样的,会将存在缺失值的行直接删除...$X2 na(list(X2=0)) 通过fill,可以将指定列中的缺失值替换为该缺失值所在行的上一行中的数据。...快捷键为 ctrl+shift+M 。管道操作,类似linux 中的 | ,即将上一步内容的结果重定向作为下一步内容输入的值。

    2.1K20

    R语言入门系列之一

    在R中对象(object)是指可以赋值给变量(variable)的任何事物,在R语言中使用对象来存储数据也即储存变量,对象类型有标量、向量、矩阵、数组、数据框、列表。...数据框必须有列名字,若没有则默认为X1、X2……。...数据框元素索引有三种方法,第一种为通过列的序号索引,第二种通过列名字索引,第三种通过$变量名索引,如下所示: 可以使用attach()函数来将数据框添加到当前平台,这样就可以直接使用列名字或变量名来调用数据框中的数据...由于因子的存在,数据分组信息等都可以转换为一个变量,从而使得数据框可以存储远多于矩阵的数据。 1.4列表 列表(list)是R中最复杂的一种数据类型。...列表是一些对象的有序集合,这些对象可以是向量、矩阵、数据框,甚至其他列表。列表可以使用list()函数进行创建,如下所示: list(object1, object2, ...)

    4.2K30

    R语言小专题

    (Sepal.Length)x定义为iris数据集——筛选出数据集中Sepal.Width大于3的值——将这些值的Sepal.Length和Sepal.Width列输出——从小到大排序三、条件语句和循环语句专题...(由于lapply输出的格式也是列表不便于观看,因此可以使用sapply函数)sapply(test,mean) #输出形式是矩阵 x y z 34.5 33.5 28.5 五、数据框的链接...> NA3)right_join( )右连接 (保留左边数据所有,相同的会被合并,空的数据为NA)right_join(test1,test2,by="name") name...> NA 5 tony NA> group2 4.55)semi_join ()半连接 (前一个数据中选出共同列名的值)semi_join(test1,test2...blood_type1 jimmy A2 nicker B3 Damon O6)anti_join( ) 反连接 (输出前一个数据中除外共同列名的数据

    86830

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    ,后续的参数是条件,这些条件是需要同时满足的,另外,条件中取 缺失值的观测自动放弃,这一点与直接在数据框的行下标中用逻辑下标有所不同,逻辑下标中有缺失值会在结果中 产生缺失值。...dplyr 包的 distinct() 函数可以对数据框指定若干变 量,然后筛选出所有不同值,每组不同值仅保留一行。...nest 与unnest 对于数据框,我们可以使用split 将数据框按某列拆分为多个数据框,并储存在列表中。...nest 和 unnest 函数,可以将子数据框保存在 tibble 中,可以将保存在 tibble 中的子数据框合并为一个大数据 框。...实际上,tibble 允许存在数据类型是列表 (list) 的列,子数据框就是以列表数据类型保存在 tibble 的一列中的。

    10.9K30

    R学习笔记(4): 使用外部数据

    对于列表和数据框,其中的元素通常称为分量(components)。 因为外部数据的处理涉及到数据框,这里对列表和数据框进行更详细的说明。...数据框是一种特殊的列表,是和矩阵类似的一种结构。...row.names 一个逻辑值,决定行名是否写入文件;或指定要作为行名写入文件的字符型 向量 col.names 一个逻辑值(决定列名是否写入文件);或指定一个要作为列名写入文件中 的字符型向量 qmethod...若quote=TRUE,则此参数用来指定字符型变量中的双引号"如何处理: 若参数值为"escape" (或者"e",缺省)每个"都用\"替换;若值为"d"则每 个"用""替换 类似的,write.table...函数 sqlSave 会把 R 数据框复制到一个数据库的表中, 而函数 sqlFetch 会把一个数据库中的表拷贝到 一个 R 的数据框中。 通过sqlQuery进行查询,返回的结果是 R 的数据框。

    1.9K70

    【数据分析 R语言实战】学习笔记 第二章 数据的读取与保存

    "," read.delim()针对使用其他分隔符的数据(并月不使用行号),sep默认值为"\t" 使用read.table或read.csv指令时,对数据格式的要求非常严格,数据必须是完整的,每一行数据的数量都一样...sqlFetch()直接读取Excel连接中的一个表到R数据框或列表中,sqlQueryQ在Excel连接上执行SQL查询语句,井返回结果。...R的数据或更一般的对象(如向量、矩阵、数据框、列表甚至函数等)可以通过save()保存为R专有的文件格式,以Rdata为后缀。...> a=file("C:/Program Files/RStudio/2.txt") 2.2.2保存为文本文件 通常我们会把R中的向量、矩阵、数据框和列表等对象写入一个文本文件中并保存起来,例如扩展名为...最好是矩阵或数据框;quote是逻辑值,TRUE表示变量名等字符、因子要用双引号括起来:sep指定分隔符;row.names/col.names也是逻辑值,TRUE表示将行名/列名写入文件中。

    6.8K10

    Excel实战技巧55: 在包含重复值的列表中查找指定数据最后出现的数据

    SUMPRODUCT+MAX+ROW函数 公式如下: =INDEX($B$2:$B$10,SUMPRODUCT(MAX(ROW($A$2:$A$10)*($D$2=$A$2:$A$10))-1)) 公式先比较单元格D2中的值与单元格区域...A2:A10中的值,如果相同返回TRUE,不相同则返回FALSE,得到一个由TRUE和FALSE组成的数组,然后与A2:A10所在的行号组成的数组相乘,得到一个由行号和0组成的数组,MAX函数获取这个数组的最大值...,也就是与单元格D2中的值相同的数据在A2:A10中的最后一个位置,减去1是因为查找的是B2:B10中的值,是从第2行开始的,得到要查找的值在B2:B10中的位置,然后INDEX函数获取相应的值。...图2 使用LOOKUP函数 公式如下: =LOOKUP(2,1/($A$2:$A$10=$D$2),$B$2:$B$10) 公式中,比较A2:A10与D2中的值,相等返回TRUE,不相等返回FALSE...组成的数组,由于这个数组中找不到2,LOOKUP函数在数组中一直查找,直至最后一个比2小的最大值,也就是数组中的最后一个1,返回B2:B10中对应的值,也就是要查找的数据在列表中最后的值。

    10.9K20
    领券