首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手把手教你做一个“渣”数据师,用Python代替老情人Excel

三、分割:即Excel过滤器 描述性报告是关于数据子集和聚合的,当需要初步了解数据时,通常使用过滤器来查看较小的数据集或特定的列,以便更好的理解数据。...8、筛选不在列表或Excel中的值 ? 9、用多个条件筛选多列数据 输入应为列一个表,此方法相当于excel中的高级过滤器功能: ? 10、根据数字条件过滤 ?...可以使用dictionary函数进行单独计算,也可以多次计算值: ? 七、Vlookup函数 Excel中的vlookup是一个神奇的功能,是每个人在学习如何求和之前就想要学习的。...会用vlookup是很迷人的,因为输出结果时像变魔术一样。可以非常自信地说它是电子表格上计算的每个数据的支柱。 不幸的是Pandas中并没有vlookup功能!...NaN; inner——仅显示两个共享列重叠的数据。

8.4K30

-Pandas 清洗“脏”数据(一)

实际上,可以使用上百万或者更大的数据库,但是,案例数据集对于开始入门还是很好的。 不幸的是,有一些列的值是缺失的,有些列的默认值是0,有的是 NaN(Not a Number)。...下面介绍几个处理缺失数据的方法: 为缺失数据赋值默认值 去掉/删除缺失数据行 去掉/删除缺失率高的列 添加默认值 我们应该去掉那些不友好的 NaN 值。但是,我们应该用什么值替换呢?...对于我们的例子,我们检查一下“country”列。这一列非常简单,然而有一些电影没有提供地区,所以有些数据的值是 NaN。...这并不是最优解,但这个持续时间是根据其他数据估算出来的。这样的方式下,就不会因为像 0 或者 NaN这样的值在我们分析的时候而抛错。...删除一正列为 NA 的列: data.drop(axis=1, how='all') 删除任何包含空值的列: data.drop(axis=1. how='any') 这里也可以使用像上面一样的 threshold

3.9K70
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据科学 IPython 笔记本 7.7 处理缺失数据

    像NaN这样的常见特殊值不适用于所有数据类型。 在大多数情况下,不存在普遍最佳选择,不同的语言和系统使用不同的惯例。...默认情况下,dropna()将删除包含空值的所有行: df.dropna() 0 1 2 1 2.0 3.0 5 或者,你可以沿不同的轴删除 NA 值; axis = 1删除包含空值的所有列: df.dropna...这可以通过how或thresh参数来指定,这些参数能够精确控制允许通过的空值数量。 默认值是how ='any',这样任何包含空值的行或列(取决于axis关键字)都将被删除。...你也可以指定how ='all',它只会丢弃全部为空值的行/列: df[3] = np.nan df 0 1 2 3 0 1.0 NaN 2 NaN 1 2.0 3.0 5 NaN 2 NaN 4.0...参数允许你为要保留的行/列指定最小数量的非空值: df.dropna(axis='rows', thresh=3) 0 1 2 3 1 2.0 3.0 5 NaN 这里删除了第一行和最后一行,因为它们只包含两个非空值

    4.1K20

    Python 数据分析(PYDA)第三版(三)

    在线 pandas 文档有许多关于每个参数如何工作的示例,因此如果您在阅读特定文件时感到困惑,可能会有足够相似的示例帮助您找到正确的参数。...60]: reader = csv.reader(f) 像处理文件一样迭代读取器会产生去除任何引号字符的值列表: In [61]: for line in reader: ....: print...Python 代码,只是其空值null和一些其他细微差别(例如不允许在列表末尾使用逗号)。...幸运的是,pandas 与内置的 Python 语言功能一起,为您提供了一套高级、灵活和快速的工具,使您能够将数据转换为正确的形式。...我们已经看到了像 unique 和 value_counts 这样的函数,它们使我们能够从数组中提取不同的值并分别计算它们的频率: In [199]: values = pd.Series(['apple

    33400

    缺失值可视化Python工具库:missingno

    missingno提供了一个灵活且易于使用的缺少数据可视化工具和实用程序的小型工具集,使你可以快速直观地概述数据集的完整性。...missingno一般配合numpy和pandas一起使用: import numpy as np import pandas as pd 案例中还会用到quilt,这是一个数据包管理器,可以让你像管理代码一样管理数据...", np.nan) ## 绘制缺失值矩阵图 msno.matrix无效矩阵是一个数据密集的显示,它可以快速直观地看出数据完整度。...绘制缺失值热力图 missingno相关性热力图可以显示无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在。...以零距离链接在一起的簇叶完全可以预测彼此的存在-一个变量在填充另一个变量时可能始终为空,或者它们可能始终都被填充或都为空,依此类推。 簇叶几乎分裂为零,但不分裂为零,彼此预测得很好,但仍不完美。

    4.3K10

    Pandas 2.2 中文官方教程和指南(一)

    pandas 是所有这些任务的理想工具。 其他一些注意事项 pandas 速度快。许多底层算法部分在Cython代码中已经得到了大量调整。但是,与其他任何事物一样,一般化通常会牺牲性能。...如何从现有列派生新列 如何计算摘要统计信息 如何重新设计表格布局 如何合并来自多个表的数据 如何轻松处理时间序列数据 如何操作文本数据 pandas 处理什么类型的数据...记住,DataFrame 是二维的,具有行和列两个维度。 转到用户指南 有关索引的基本信息,请参阅用户指南中关于索引和选择数据的部分。 如何从DataFrame中过滤特���行?...这样的布尔值Series可以通过将其放在选择括号[]之间来过滤DataFrame。只有值为True的行才会被选择。 我们之前知道原始泰坦尼克号DataFrame由 891 行组成。...因此,可以与选择括号[]结合使用来过滤数据表。 你可能想知道实际发生了什么变化,因为前 5 行仍然是相同的值。

    97110

    PandasGUI:使用图形用户界面分析 Pandas 数据帧

    PandasGUI 是一个库,通过提供可用于制作 安装 PandasGUI 使用pip 命令像安装任何其他 python 库一样安装 PandasGUI。...可以看到表示 NaN 值的空单元格。可以通过单击单元格并编辑其值来编辑数据。只需单击特定列即可根据特定列对数据框进行排序。在下图中,我们可以通过单击fare 列对数据框进行排序。...PandasGUI 中的过滤器 假设我们想查看 MSSubClass 的值大于或等于 120 的行。...titanic.describe() 在 PandasGUI 中,可以转到统计部分并获取每列的统计信息。...如果您想快速概览数据,从检查汇总统计数据到绘制数据,PandasGUI 是一个很好的工具,可以轻松完成,无需代码。

    3.9K20

    史上最全!用Pandas读取CSV,看这篇就够了

    # int类型,默认为None pd.read_csv(data, nrows=1000) 17 空值替换 na_values参数的值是一组用于替换NA/NaN的值。如果传参,需要指定特定列的空值。...# 空值为NaN pd.read_csv(data, keep_default_na=False, na_values=[""]) # 字符NA和字符0会被认为是NaN pd.read_csv(data...(data, na_values={'c':3, 1:[2,5]}) 18 保留默认空值 分析数据时是否包含默认的NaN值,是否自动识别。...比如,如果一行用双引号包裹着的数据中有换行符,用以下代码可以过滤其中的换行符。...如果在一行的开头找到该标识,则将完全忽略该行。此参数必须是单个字符。像空行一样(只要skip_blank_lines = True),注释的行将被参数header忽略,而不是被skiprows忽略。

    76.1K811

    针对SAS用户:Python数据分析库pandas

    像SAS一样,DataFrames有不同的方法来创建。可以通过加载其它Python对象的值创建DataFrames。...也要注意Python如何为数组选择浮点数(或向上转型)。 ? 并不是所有使用NaN的算数运算的结果是NaN。 ? 对比上面单元格中的Python程序,使用SAS计算数组元素的平均值如下。...默认情况下,.dropna()方法删除其中找到任何空值的整个行或列。 ? ? .dropna()方法也适用于列轴。axis = 1和axis = "columns"是等价的。 ? ?...显然,这会丢弃大量的“好”数据。thresh参数允许您指定要为行或列保留的最小非空值。在这种情况下,行"d"被删除,因为它只包含3个非空值。 ? ? 可以插入或替换缺失值,而不是删除行和列。....fillna()方法返回替换空值的Series或DataFrame。下面的示例将所有NaN替换为零。 ? ?

    12.1K20

    Python读写csv文件专题教程(2)

    converters converters参数是键为某列,值为函数的字典,它完成对列数据的变化操作,如下所示: In [54]: df = pd.read_csv('test.csv',sep='\s+...数据域部分为空。 skiprows还可以被赋值为某种过滤规则的函数 skip_footer 从文件末尾过滤行,解析器退化为python. 这是因为c解析器没有这个特性。...2.4 文件空值处理 na_values 这个参数可以配置哪些值需要处理成Na/NaN, 类型为字典,键指明哪一列,值为看做Na/NaN的字符....假设我们的数据文件如下,date列中有一个 #值,我们想把它处理成NaN值。...---- read_csv的其他参数还包括如下: 时间处理 迭代 文件压缩相关 错误处理 指定列的类型 指定列为 Categorical 类型 基于各种应用场景的参数灵活运用

    80220

    深入解析Python中的Pandas库:详细使用指南

    df['Name'][0:2] # 选择前两行的'Name'列数据 # 过滤数据 df[df['Age'] > 25] # 过滤出年龄大于25的数据 # 排序数据 df.sort_values...最后 通过本文的分享介绍,可以知道Pandas是Python中一款功能强大且广泛应用的数据分析和处理库,提供了丰富的功能和灵活的数据结构。...上面详细介绍了Pandas库的使用方法,尤其是在数据结构创建、数据操作和数据可视化等方面,并提供了可运行的源码示例,帮助读者全面理解和灵活应用这个强大的工具。...另外Pandas库还与其他数据科学和机器学习库集成得非常紧密,使数据分析和建模的过程更加流畅和高效。...最后,不论你是初学者还是有经验的数据专家,掌握Pandas库都将成为你在数据处理和分析领域的重要技能,以便更好地应对在实际开发中的数据处理挑战。

    74523

    《利用Python进行数据分析·第2版》第7章 数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

    表7-1列出了一些关于缺失数据处理的函数。 ? 表7-1 NA处理方法 滤除缺失数据 过滤掉缺失数据的办法有很多种。...对于一个Series,dropna返回一个仅含非空数据和索引值的Series: In [15]: from numpy import nan as NA In [16]: data = pd.Series...假设我们还有一列值,且只希望根据k1列过滤重复项: In [49]: data['v1'] = range(7) In [50]: data.drop_duplicates(['k1']) Out[50...替换值 利用fillna方法填充缺失数据可以看做值替换的一种特殊情况。前面已经看到,map可用于修改对象的数据子集,而replace则提供了一种实现该功能的更简单、更灵活的方式。...如果DataFrame的某一列中含有k个不同的值,则可以派生出一个k列矩阵或DataFrame(其值全为1和0)。

    5.3K90

    K近邻算法:以同类相吸解决分类问题!

    这些电影有各自的特点,像是动作片的打斗场景一定比爱情片多,它也不会像歌舞片一样一言不合就开始跳舞,但又不能完全排除有出现的可能。 总结这三类型的影片所具有的显著特点:打斗、亲吻、跳舞。...接下来我们来详细举例说明: 正常的欧式距离:每个维度上都有数值。 带有空值的欧式聚类:某个或多个维度上的值为空NaN。...一般情况下,使用KNN的时候,根据数据规模我们会从[3, 20]之间进行尝试,选择最好的K。 2. 代码实践 我们借助鸢尾花的案例案例,了解在无缺失数值的数据集中,如何实现KNN算法。...现在我们知道,该原始数据有300行,28列,并且存在NaN值待处理,其中数据的第23列表示是否病变,1为yes,2为no。...这里我们使用KNNImputer进行空值填充,其填充方法和之前在距离计算那里提到的计算方式是一样的,所以就不再赘述: imputer = KNNImputer() # 填充数据集中的空值 x1 = imputer.fit_transform

    1.6K30

    Pandas数据处理与分析教程:从基础到实战

    本教程将详细介绍Pandas的各个方面,包括基本的数据结构、数据操作、数据过滤和排序、数据聚合与分组,以及常见的数据分析任务。 什么是Pandas?...它类似于Excel中的电子表格或SQL中的数据库表,提供了行、列的索引,方便对数据进行增删改查。...数据操作 在数据操作方面,Pandas提供了丰富的功能,包括数据选择和索引、数据切片和过滤、数据缺失值处理、数据排序和排名等。...np.nan]} df = pd.DataFrame(data) # 检查缺失值 print(df.isnull()) # 填充缺失值 df_filled = df.fillna(0) print(...# 查看数据的基本信息 print(df.info()) 使用info方法打印出数据的基本信息,包括列名称、数据类型以及非空值的数量等。

    54310

    3招降服Python数据中的None值

    只要和数据打交道,就不可能不面对一个令人头疼的问题-数据集中存在空值。空值处理,是数据预处理之数据清洗的重要内容之一。...Python 数据分析包 Pandas 提供了一些便利的函数,可以帮助我们快速按照设想处理、解决空值。 空值处理的第一招:快速确认数据集中是不是存在空值。...说到空值,在 NumPy 中定义为: np.nan,Python 中定义为 None,所以大家注意这种表达方式。...这里面有一个坑,就是 Pandas 对象某列或某行,直接拿 np.nan , None 判断元素是否为空,发现返回的都是False。注意:这样做是不可取的!...为了使文章看起来足够简洁,让大家快速了解处理思路,我就不在文中贴代码了,详细的Jupyter 代码,请点击阅读原文,跳转到小编的github库。

    1.2K30

    厉害了,Pandas表格还能五彩斑斓的展示数据,究竟是怎么做到的呢?

    在使用Pandas分析数据时,我们可能经常需要来高亮显示某些数据,以便一眼看出这些数据的不同之处,今天小编就来分享一下如何在“Pandas”的表格当中高亮某些数据,通过这篇文章,读者们可以知道怎么去 高亮某些符合条件的值...高亮最大、最小、空值、特定值 在表格当中绘制直方图 绘制热力图 首先我们先要导入需要用到的模块,并且创建一个表格里面包含了用“random”模块建立的随机数,当然另外还有空值 import pandas...表格高亮最大最小值空值 ?...当然我们也可以对指定的几列来进行高亮,例如我们想高亮“C”列、“D”列和“E”列三列中的最大值 sub1 = df.style.highlight_max(subset=['C', 'D', 'E'])...接下来我们来看一下如何在表格当中绘制柱状图,代码如下 s1 = df.style.bar(subset=['A', 'B'], color='#00B8EA') # Blue colour s1 s2

    78010

    Pandas 2.2 中文官方教程和指南(八)

    像 NumPy 数组一样,pandas 的Series具有单一的dtype。...如果一个标签在其中一个 Series 中找不到,结果将被标记为缺失的 NaN。能够编写代码而无需进行任何显式数据对齐,为交互式数据分析和研究提供了巨大的自由和灵活性。...如果一个标签在一个Series或另一个中找不到,则结果将被标记为缺失的NaN。能够编写不进行任何显式数据对齐的代码为交互式数据分析和研究提供了巨大的自由和灵活性。...像 NumPy 数组一样,pandas 的Series具有单一的dtype。...如果一个标签在一个Series中找不到或另一个中找不到,则结果将标记为缺失的NaN。能够编写不执行任何显式数据对齐的代码为交互式数据分析和研究提供了巨大的自由和灵活性。

    31700

    高手系列!数据科学家私藏pandas高阶用法大全 ⛵

    如果调用combine_first()方法的 df1 中数据非空,则结果保留 df1 中的数据,如果 df1 中的数据为空值且传入combine_first()方法的 df2 中数据非空,则结果取 df2...中的数据,如果 df1 和 df2 中的数据都为空值,则结果保留 df1 中的空值(空值有三种:np.nan、None 和 pd.NaT)。...DataFrame 中的列 我们可以根据名称中的子字符串过滤 pandas DataFrame 的列,具体是使用 pandas 的DataFrame.filter功能。...DataFrame 在我们处理数据的时候,有时需要根据某个列进行计算得到一个新列,以便后续使用,相当于是根据已知列得到新的列,这个时候assign函数非常方便。...,我们不用关心它是如何抓取网站HTML的。

    6.1K30
    领券