首页
学习
活动
专区
圈层
工具
发布

Python数据处理从零开始----第二章(pandas)(十一)通过列属性对列进行筛选

本文主要目的是通过列属性进行列挑选,比如在同一个数据框中,有的列是整数类的,有的列是字符串列的,有的列是数字类的,有的列是布尔类型的。...假如我们需要挑选或者删除属性为整数类的列,就可能需要用到pandas.DataFrame.select_dtypes函数功能 该函数的主要格式是:DataFrame.select_dtypes(include...= None,exclude = None),返回DataFrame列的子集。...返回: subset:DataFrame,包含或者排除dtypes的的子集 笔记 要选取所有数字类的列,请使用np.number或'number' 要选取字符串的列,必须使用‘object’ 要选择日期时间...,请使用np.datetime64,'datetime'或'datetime64' 要选取所有属性为‘类’的列,请使用“category” 实例 新建数据集 import pandas as pd import

2.4K20

6分+纯生信:基于免疫浸润对多癌种进行化疗获益分析

术语 CIBERSORT :一种反卷积算法,主要基于归一化后的基因表达数据来对特定细胞类型的丰度进行量化。...研究思路 结果 样本分类 作者为了进行后续分析,首先对TCGA的数据集依据样本数和接受化疗百分比进行了分类,最后采纳了7个数据集(样本数大于50,化疗百分比大于30%);通常认为,肿瘤分级可以反应化疗结果...肿瘤浸润免疫细胞及生存分析 基于以上对免疫浸润细胞的分析,作者研究了肿瘤细胞浸润的差异对不同癌种预后的影响;由此,便需要基于肿胞浸润免疫细胞的丰度差异进行生存分析,即7(选定的7个癌种)*22(22种免疫细胞...(F);用ROC曲线分析来评估所选所选特征基因的预后价值(G-H); 结语 文章基于分析所需样本量和化疗百分比进行数据集的筛选,最后筛选7个数据集进行后续分析;单因素cox分析认为肿瘤分级并不能对所有癌种的化疗效果进行预测...,便对所选癌种展开免疫浸润和化疗预后的分析;最后基于BRCA数据集进行Lasso Cox回归分析,得到3个化疗相关特征基因,用ROC曲线分析评价所选特征基因的诊断价值。

1.3K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    机器学习:数据清洗与预处理 | Python

    describe():生成数值型列的统计摘要,包括计数、均值、标准差、最值和四分位数。...使用IQR方法检测异常值 def detect_outliers(df, col): """检测指定列的异常值""" Q1 = df[col].quantile(0.25) # 下四分位数...Q3 = df[col].quantile(0.75) # 上四分位数 IQR = Q3 - Q1 # 四分位距 lower_bound = Q1 - 1.5 * IQR...quantile(q):计算分位数,q=0.25 表示下四分位数(Q1),q=0.75 表示上四分位数(Q3)。 异常值处理策略:删除(适用于错误数据)、截断(替换为边界值)、转换(如对数转换)。...实例实践 以鸢尾花数据集为例 原数据集:在资源绑定中 #导入库 import pandas as pd import numpy as np import matplotlib.pyplot as plt

    68910

    数据导入与预处理-第5章-数据清理

    3σ原则 进行异常值检测 基于箱型图进行异常检测 替换采用replace函数: 1....箱形图是一种用于显示一组数据分散情况的统计图,它通常由上边缘、上四分位数、中位数、下四分位数、下边缘和异常值组成。...Q3表示上四分位数,说明全部检测值中有四分之一的值比它大;Q1表示下四分位数,说明全部检测值中有四分之一的值比它小;IQR表示四分位数间距,即上四分位数Q3与下四分位数Q1之差,其中包含了一半检测值;空心圆点表示异常值...在计算数据集的四分位数时,除了要先对数据集排序外,还要根据其中数据的总数量选择不同的计算方式:当数据的总数量为偶数时,数据集被中位数划分为个数相等(每组有n/2个)的两组数,其中第一组数的中位数为Q1,...(df1_drop['old']) 输出为: 基于箱型图进行异常检测 查看数据 import pandas as pd df1 输出为: 绘制箱型图,查看有无异常值: import matplotlib.pyplot

    5.7K20

    数据导入与预处理-课程总结-04~06章

    2.箱型图检测 箱形图是一种用于显示一组数据分散情况的统计图,它通常由上边缘、上四分位数、中位数、下四分位数、下边缘和异常值组成。...Q3表示上四分位数,说明全部检测值中有四分之一的值比它大; Q1表示下四分位数,说明全部检测值中有四分之一的值比它小; IQR表示四分位数间距,即上四分位数Q3与下四分位数Q1之差,其中包含了一半检测值...sort:表示按键对应一列的顺序对合并结果进行排序,默认为True。...lsuffix: 左DataFrame中重复列的后缀 rsuffix: 右DataFrame中重复列的后缀 sort: 按字典序对结果在连接键上排序 join方式为按某个相同列进行join: score_df...实现哑变量的方法: pandas中使用get_dummies()函数对类别数据进行哑变量处理,并在处理后返回一个哑变量矩阵。

    15K10

    我的Python分析成长之路9

    pandas入门 统计分析是数据分析的重要组成部分,它几乎贯穿整个数据分析的流程。运用统计方法,将定量与定性结合,进行的研究活动叫做统计分析。而pandas是统计分析的重要库。...1.数值型特征的描述性统计     数值型特征的描述性统计主要包括了计算数值型数据的完整情况、最小值、均值、中位数、最大值、四分位数、极差、标准差、方差、协方差和变异系数。     ...()) #返回每组的标准差 18 print(group.sum()) #返回每组的和 19 print(group.quantile(0.9)) #返回每组的分位数 20 group2 = df...列进行分组,获得一个group对象 # group= df.groupby(df['key1'])['data1'] #两个等价 group = df.groupby(df['key1']) #对整个...:聚合函数 fill_value :对缺失值进行填充 ?

    2.8K11

    干货:4个小技巧助你搞定缺失、混乱的数据(附实例代码)

    想了解更多,可访问: http://www.numpy.org .digitize(...)方法对指定列中的每个值,都返回所属的容器索引。第一个参数是要分级的列,第二个参数是容器的数组。...要达成这个目标,我们可以使用分位数。 分位数与百分位数有紧密的联系。区别在于百分位数返回的是给定百分数的值,而分位数返回的是给定分位点的值。...(例如,0.5是中位数,0.25和0.75是上下四分位数)。...所以,.quantile(...)方法会以price_mean列的最小值开始,直到最大值,返回十分位数的列表。 04 编码分类变量 为数据的探索阶段准备的最后一步就是分类变量了。...比如,考虑一个变量,以三种水平中的某一种作为值: 1 One 2 Two 3 Three 需要用三列进行编码: 1 One 1 0 0 2 Two 0 1 0 3 Three 0 0 1 有时可用两列。

    1.9K30

    Python数据分析实战基础 | 初识Pandas

    Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集,也是我们后期分析案例的神器。...,都是基于这些表和列进行的操作(关于Pandas和Excel的形象关系,这里推荐我的好朋友张俊红写的《对比EXCEL,轻松学习Python数据分析》)。...这里有一点需要强调,Pandas和Excel、SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理,在正式处理之前,更重要的是谋定而后动,明确分析的意义,理清分析思路之后再处理和分析数据...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、平均值和最大值,25%、50%、75%对应的则是分位数。...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    2.2K30

    Python数据分析实战基础 | 初识Pandas

    Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集,也是我们后期分析案例的神器。...,都是基于这些表和列进行的操作(关于Pandas和Excel的形象关系,这里推荐我的好朋友张俊红写的《对比EXCEL,轻松学习Python数据分析》)。...这里有一点需要强调,Pandas和Excel、SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理,在正式处理之前,更重要的是谋定而后动,明确分析的意义,理清分析思路之后再处理和分析数据...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    2.4K12

    对比Excel,一文掌握Pandas表格条件格式(可视化)

    条件格式 基于以上,我们其实可以通过函数方式进行多种条件的综合,让Excel表格可视化丰富多彩,比如以下截图展示的就是色阶效果!...色阶案例,数据截止8月5日 在上图中,我们对每列单独进行条件格式-色阶设置,绿色->红色 代表数值从小到大,可以很直观的快速感受数值表现。...subset用于指定操作的列或行 color用于指定颜色,默认是黄色 axis用于指定行、列或全部 q_left用于指定分位数左边界,默认是0 q_right用于指定分位数右边界,默认是1 inclusive...0 指定列进行格式化 分别对指定列进行单独格式化 6....比如,我们定义一个函数,如果金牌数列对应的值 比如,我们还可以定义函数,如果金牌数<银牌数,则这一行数据都高亮 又或者,我们可以根据不同的比值对每行进行不同的高亮 关于以上函数的写法

    6.6K20

    Python数据分析实战基础 | 初识Pandas

    Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集,也是我们后期分析案例的神器。...,都是基于这些表和列进行的操作(关于Pandas和Excel的形象关系,这里推荐我的好朋友张俊红写的《对比EXCEL,轻松学习Python数据分析》)。...这里有一点需要强调,Pandas和Excel、SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理,在正式处理之前,更重要的是谋定而后动,明确分析的意义,理清分析思路之后再处理和分析数据...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    2.1K30

    Pandas必会的方法汇总,数据分析必备!

    () 基于秩或基于样本分位数将变量离散化为等大小桶 4 pandas.cut() 基于分位数的离散化函数 5 pandas.date_range() 返回一个时间索引 6 df.apply() 沿相应轴应用函数...,用统计学指标快速描述数据的概要 6 .sum() 计算各列数据的和 7 .count() 非NaN值的数量 8 .mean( ) 计算数据的算术平均值 9 .median() 计算算术中位数 10 ....() 计算均值 20 .quantile() 计算分位数(0到1) 21 .isin() 用于判断矢量化集合的成员资格,可用于过滤Series中或DataFrame列中数据的子集 22 .unique(...() 根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来进行研究,以揭示其内在的联系和规律性。...默认会返回一个新的对象,传入inplace=True可以对现有对象进行就地修改。 2 .duplicated() 判断各行是否是重复行,返回一个布尔型Series。

    7.6K20

    一文带你快速入门Python | 初识Pandas

    Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集,也是我们后期分析案例的神器。...,都是基于这些表和列进行的操作(关于Pandas和Excel的形象关系,这里推荐我的好朋友张俊红写的《对比EXCEL,轻松学习Python数据分析》)。...这里有一点需要强调,Pandas和Excel、SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理,在正式处理之前,更重要的是谋定而后动,明确分析的意义,理清分析思路之后再处理和分析数据...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    1.7K01

    Python数据分析实战基础 | 初识Pandas

    Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集,也是我们后期分析案例的神器。...,都是基于这些表和列进行的操作(关于Pandas和Excel的形象关系,这里推荐我的好朋友张俊红写的《对比EXCEL,轻松学习Python数据分析》)。...这里有一点需要强调,Pandas和Excel、SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理,在正式处理之前,更重要的是谋定而后动,明确分析的意义,理清分析思路之后再处理和分析数据...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    1.9K40

    Python数据分析实战基础 | 初识Pandas

    Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集,也是我们后期分析案例的神器。...,都是基于这些表和列进行的操作(关于Pandas和Excel的形象关系,这里推荐我的好朋友张俊红写的《对比EXCEL,轻松学习Python数据分析》)。...这里有一点需要强调,Pandas和Excel、SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理,在正式处理之前,更重要的是谋定而后动,明确分析的意义,理清分析思路之后再处理和分析数据...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、平均值和最大值,25%、50%、75%对应的则是分位数。...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    1.6K21

    利用Pandas库实现Excel条件格式自动化

    条件格式 基于以上,我们其实可以通过函数方式进行多种条件的综合,让Excel表格可视化丰富多彩,比如以下截图展示的就是色阶效果!...色阶案例,数据截止8月5日 在上图中,我们对每列单独进行条件格式-色阶设置,绿色->红色 代表数值从小到大,可以很直观的快速感受数值表现。...subset用于指定操作的列或行 color用于指定颜色,默认是黄色 axis用于指定行、列或全部 q_left用于指定分位数左边界,默认是0 q_right用于指定分位数右边界,默认是1 inclusive...0 指定列进行格式化 分别对指定列进行单独格式化 6....比如,我们定义一个函数,如果金牌数列对应的值 比如,我们还可以定义函数,如果金牌数<银牌数,则这一行数据都高亮 又或者,我们可以根据不同的比值对每行进行不同的高亮 关于以上函数的写法

    7.9K41

    Pandas知识点-统计运算函数

    在Pandas中,数据的获取逻辑是“先列后行”,所以max()默认返回每一列的最大值,axis参数默认为0,如果将axis参数设置为1,则返回的结果是每一行的最大值,后面介绍的其他统计运算函数同理。...根据DataFrame的数据特点,每一列的数据属性相同,进行统计运算是有意义的,而每一行数据的数据属性不一定相同,进行统计计算一般没有实际意义,极少使用,所以本文也不进行举例。...使用DataFrame数据调用median()函数,返回结果为DataFrame中每一列的中位数,median()也不能计算字符串或object的中位数,会自动将不能计算的列省略。 ?...累计求和是指,对当前数据及其前面的所有数据求和。如索引1的累计求和结果为索引0、索引1的数值之和,索引2的累计求和结果为索引0、索引1、索引2的数值之和,以此类推。 ?...describe(): 综合统计函数,可以同时返回数据中的数据量、均值、标准差、最小值、最大值,以及上四分位数、中位数、下四分位数。可以一次返回数据的多个统计属性,使用起来很方便。

    2.7K20
    领券