数据帧的数据(值)始终为常规字体,并且是与列或索引完全独立的组件。 Pandas 使用NaN(不是数字)来表示缺失值。 请注意,即使color列仅包含字符串值,它仍使用NaN表示缺少的值。...类别 pd.Categorical Categorical 仅限于 Pandas。 对于唯一值相对较少的对象列很有用。 准备 在此秘籍中,我们将显示数据帧中每一列的数据类型。...调用序列方法是使用序列提供的功能的主要方法。 准备 序列和数据帧都具有强大的函数。 我们可以使用dir函数来揭示序列的所有属性和方法。 此外,我们可以找到序列和数据帧共有的属性和方法的数量。...同时选择数据帧的行和列 直接使用索引运算符是从数据帧中选择一列或多列的正确方法。 但是,它不允许您同时选择行和列。...第 9 步使用列表推导式遍历所有所需的列名,以使用索引方法get_loc查找其整数位置。 更多 实际上,可以将数组和布尔值列表传递给序列对象,这些对象的长度与您要建立索引的数据帧的长度不同。
如果笛卡尔积是 Pandas 的唯一选择,那么将数据帧的列加在一起这样的简单操作将使返回的元素数量激增。 在此秘籍中,每个序列具有不同数量的元素。...处理较大的数据时,此问题可能会产生可笑的错误结果。 准备 在此秘籍中,我们添加了两个较大的序列,它们的索引只有几个唯一值,但顺序不同。 结果将使索引中的值数量爆炸。...通过返回数据帧,可以为每个组返回任意数量的行和列。 除了查找算术和加权均值之外,我们还查找两个 SAT 列的几何和谐波均值,然后将结果作为数据帧返回,其中数据行是均值类型的名称,列是 SAT 类型。...index参数采用一列(或多列),该列将不会被透视,并且其唯一值将放置在索引中。columns参数采用一列(或多列),该列将被透视,并且其唯一值将作为列名称。...append方法最不灵活,仅允许将新行附加到数据帧。concat方法非常通用,可以在任一轴上组合任意数量的数据帧或序列。join方法通过将一个数据帧的列与其他数据帧的索引对齐来提供快速查找。
Series在 Pandas 中的常见用法是表示将日期/时间索引标签与值相关联的时间序列。...代替单个值序列,数据帧的每一行可以具有多个值,每个值都表示为一列。 然后,数据帧的每一行都可以对观察对象的多个相关属性进行建模,并且每一列都可以表示不同类型的数据。...此属性返回数据帧中数据值的数量。...当应用于数据帧时,布尔选择可以利用多列中的数据。...下面将PER列与随机数据的序列相加。 由于这使用对齐方式,因此有必要使用与目标数据帧相同的索引。
这是因为索引将使用此哈希来形成与该对象的值相关联的值的有效查找。 尽管哈希查找比线性查找更受青睐,但还有其他类型的索引可以进一步优化。 列索引通常是这种通用类型。...-2e/img/00263.jpeg)] 可以将多个列移至索引,从而形成一个层次/多索引。...下面的屏幕截图通过创建一个数据帧并将其值转换为category的第二列来说明这一点,该数据帧的一列然后是第二列。...在本节中,我们将研究其中的许多内容,包括: 在数据帧或序列上执行算术 获取值的计数 确定唯一值(及其计数) 查找最大值和最小值 找到 n 个最小和 n 个最大的值 计算累计值 在数据帧或序列上执行算术...以下内容删除了c5列,因为它是唯一具有所有NaN值的列: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rAxJRdao-1681365561394)(https://gitcode.net
它将分为以下几点: 1、在Pandas数据流中生成数据。 2、数据帧内的数据检索/操作。...2 数据帧操作 在本节中,我将展示一些关于Pandas数据帧的常见问题的提示。 注意:有些方法不直接修改数据帧,而是返回所需的数据帧。...获取列的所有唯一属性值: 假设我们有一个整数属性user_id: listOfUniqueUserIDs = data[‘user_id’].unique() 然后你可以迭代这个列表,或者用它做任何你想做的事情...填充列缺少的值: 与大多数数据集一样,必须期望大量的空值,这有时会令人恼火。...这些数据将为您节省查找自定义数据集的麻烦。 此外,数据可以是任何首选大小,可以覆盖许多数据类型。此外,您还可以使用上述的一些技巧来更加熟悉Pandas,并了解它是多么强大的一种工具。
df.info() 索引,数据类型和内存信息 df.describe() 数值列的汇总统计信息 s.value_counts(dropna=False) 查看唯一值和计数 df.apply(pd.Series.value_counts...) 所有列的唯一值和计数 选择 df[col] 返回一维数组col的列 df[[col1, col2]] 作为新的数据框返回列 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...df.groupby([col1,col2]) 从多列返回一组对象的值 df.groupby(col1)[col2] 返回col2中的值的平均值,按col1中的值分组(平均值可以用统计部分中的几乎任何函数替换...df.describe() 数值列的汇总统计信息 df.mean() 返回所有列的平均值 df.corr() 查找数据框中的列之间的相关性 df.count() 计算每个数据框的列中的非空值的数量 df.max...() 查找每个列中的最大值 df.min() 查找每列中的最小值 df.median() 查找每列的中值 df.std() 查找每个列的标准差 点击“阅读原文”下载此速查卡的打印版本 END.
isna 函数确定数据帧中缺失的值。...通过将 isna 与 sum 函数一起使用,我们可以看到每列中缺失值的数量。...df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True) 17.将特定列设置为索引 我们可以将数据帧中的任何列设置为索引...我们可能需要检查唯一类别的数量。我们可以检查值计数函数返回的序列的大小或使用 nunique 函数。...23.数据类型转换 默认情况下,分类数据与对象数据类型一起存储。但是,它可能会导致不必要的内存使用,尤其是当分类变量具有较低的基数。 低基数意味着列与行数相比几乎没有唯一值。
Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。...3、从字典创建一个系列 字典(dict)可以作为输入传递,如果没有指定索引,则按排序顺序取得字典键以构造索引。如果传递了索引,索引中与标签对应的数据中的值将被拉出。 ?...5、序列的聚合统计 Series有很多的聚会函数,可以方便的统计最大值、求和、平均值等 ? 6、DataFrame(数据帧) DataFrame是带有标签的二维数据结构,列的类型可能不同。...15、分类汇总 可以按照指定的多列进行指定的多个运算进行汇总。 ? 16、透视表 透视表是pandas的一个强大的操作,大量的参数完全能满足你个性化的需求。 ?...19、数据合并 两个DataFrame的合并,pandas会自动按照索引对齐,可以指定两个DataFrame的对齐方式,如内连接外连接等,也可以指定对齐的索引列。 ?
df.shape返回行和列的数量。 df.info()总结了所有相关信息 还可以将一个或几个列设置为索引。...注意:要小心,如果第二个表有重复的索引值,你会在结果中出现重复的索引值,即使左表的索引是唯一的 有时,连接的DataFrame有相同名称的列。...一列范围内的用户函数唯一可以访问的是索引,这在某些情况下是很方便的。例如,那一天,香蕉以50%的折扣出售,这可以从下面看到: 为了从自定义函数中访问group by列的值,它被事先包含在索引中。...要将其转换为宽格式,请使用df.pivot: 这条命令抛弃了与操作无关的东西(即索引和价格列),并将所要求的三列信息转换为长格式,将客户名称放入结果的索引中,将产品名称放入其列中,将销售数量放入其 "...我们已经看到很多例子,Pandas函数返回一个多索引的DataFrame。我们仔细看一下。
操作数据帧可能很快会成为一项复杂的任务,因此在Pandas中的八种技术中均提供了说明,可视化,代码和技巧来记住如何做。 ?...初始DataFrame中将成为索引的列,并且这些列显示为唯一值,而这两列的组合将显示为值。这意味着Pivot无法处理重复的值。 ? 旋转名为df 的DataFrame的代码 如下: ?...Melt Melt可以被认为是“不可透视的”,因为它将基于矩阵的数据(具有二维)转换为基于列表的数据(列表示值,行表示唯一的数据点),而枢轴则相反。...Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应值的新DataFrame的列。在表上调用堆栈后再调用堆栈不会更改该堆栈(原因是存在“ 0 ”)。...“inner”:仅包含元件的键是存在于两个数据帧键(交集)。默认合并。 记住:如果您使用过SQL,则单词“ join”应立即与按列添加相联系。
、输入以下代码通过Pip进行安装Pandas库 二、数据的新建、保存与整理 1、新建数据保存到Excel 2、读取txt文件,将内容保存到Excel(引用B站UP 孙兴华示例文件) 3、读取Excel...及DataFrame的使用方式 三、数据排序与查询 1、排序 例1:按语文分数排序降序,数学升序,英语降序 例2:按索引进行排序 2、查询 单条件查询 多条件查询 使用数据区间范围进行查询...二、数据的新建、保存与整理 1、新建数据保存到Excel import pandas as pd path = 'E:\python\测试\测试文件.xlsx' data= pd.DataFrame...data.isnull() # 查找data中出现的空值 data.unique() # 查看唯一值 data.columns...限制填充数量为1 三、数据排序与查询 1、排序 例1:按语文分数排序降序,数学升序,英语降序 import pandas as pd path = 'c:/pandas/排序.xlsx' data= pd.read_excel
有一些获得这些信息的方法: 可以用 unique() 和 nunique() 获取列内唯一的值(或唯一值的数量); >>> df['generation'].unique() array(['Generation...(例如最小值、最大值、平均值、总数等),如果指定 include='all',会针对每一列目标输出唯一元素的数量和出现最多元素的数量; ?...回到 convert_df() 方法,如果这一列中的唯一值小于 50%,它会自动将列类型转换成 category。...一旦加载了数据框,只要正确管理索引,就可以快速地访问数据。 访问数据的方法主要有两种,分别是通过索引和查询访问。根据具体情况,你只能选择其中一种。但在大多数情况中,索引(和多索引)都是最好的选择。...source=post_page--------------------------- 除了文中的所有代码外,还包括简单数据索引数据框(df)和多索引数据框(mi_df)性能的定时指标。 ?
有一些获得这些信息的方法: 可以用 unique() 和 nunique() 获取列内唯一的值(或唯一值的数量); >>> df[ generation ].unique() array([ Generation...(例如最小值、最大值、平均值、总数等),如果指定 include= all ,会针对每一列目标输出唯一元素的数量和出现最多元素的数量; ?...回到 convert_df() 方法,如果这一列中的唯一值小于 50%,它会自动将列类型转换成 category。...一旦加载了数据框,只要正确管理索引,就可以快速地访问数据。 访问数据的方法主要有两种,分别是通过索引和查询访问。根据具体情况,你只能选择其中一种。但在大多数情况中,索引(和多索引)都是最好的选择。...source=post_page--------------------------- 除了文中的所有代码外,还包括简单数据索引数据框(df)和多索引数据框(mi_df)性能的定时指标。 ?
◆ ◆ ◆ 我们开始吧 从导入模块和加载数据集到Python环境这一步开始: ? # 1–布尔索引 如果你想根据另一列的条件来筛选某一列的值,你会怎么做?...在利用某些函数传递一个数据帧的每一行或列之后,Apply函数返回相应的值。该函数可以是系统自带的,也可以是用户定义的。举个例子,它可以用来找到任一行或者列的缺失值。 ? ?...# 5–多索引 如果你注意到#3的输出,它有一个奇怪的特性。每一个索引都是由3个值组合构成的。这就是所谓的多索引。它有助于快速执行运算。 从# 3的例子继续开始,我们有每个组的均值,但还没有被填补。...2. .values[0]后缀是必需的,因为默认情况下元素返回的索引与原数据框的索引不匹配。在这种情况下,直接赋值会出错。 # 6. 交叉表 此函数用于获取数据的一个初始“感觉”(视图)。...# 8–数据帧排序 Pandas允许在多列之上轻松排序。可以这样做: ? ? 注:Pandas的“排序”功能现在已不再推荐。我们用“sort_values”代替。
查询中使用到的索引 key_len: 查询优化器使用了的索引字节数 ref: 哪个字段或常量与 key 一起被使用 rows: 当前的查询一共扫描了多少行(估值) filtered: 查询条件过滤的数据百分比...索引类型及操作 索引类型 普通索引 这 是 最 基 本 的 索 引 类 型 , 支 持 单 列 和 多 列 。...-- Cardinality:索引中唯一值的数目的估计值 -- Sub_part:如果列只是被部分地编入索引,则为被编入索引的 字符的数目。...所以,每次查找数据时把磁盘 IO 次数控制在一个很小的数量级是最优的,最好是常数数 量级。那么我们就想到如果一个高度可控的多路搜索树是否能满足需求呢?就这样,B+树应运而生。...索引列不能参与计算,保持列“干净”,比如 from_unixtime(create_time) = ’2014-05-29’就不能使用到索引,原因很 简单,b+树中存的都是数据表中的字段值,但进行检索时
4 pandas基本功能 4.1-4.5见之前文章 4.6 排名 排名这个功能目前我用的不怎么多,但还是简单说明一下。排名用到了rank方法。...---- 5 描述性统计概述与计算 5.1 描述性统计和汇总统计 pandas对象有一个常用数学、统计学方法的集合,大部分属于规约和汇总统计,并且还有处理缺失值的功能。...print('最大值的索引:\n', frame.idxmax()) #查找最大值所在位置 print('列上累计和:\n', frame.cumsum()) print('获取描述性信息:\n', frame.describe...例如,frame['one'].corr(frame['two'])表示frame的'one'和'two'两列的相关性;frame['one'].cov(frame['two'])表示frame两列的协方差...;利用corrwith来计算每一列对某一列的相关性,例如frame.corrwith(frame['two'])计算每一列对two列的的相关性,也可以传入axis='columns'逐行计算。
它包含纽约警方2016年收到的与“喧闹音乐/派对”相关的噪音投诉电话,让我们来看看在纽约哪里玩得开心。 为了方便起见,已经将数据集上传到Github上,你可以直接用pandas读取文件。...pandas中的SUMIF 使用布尔索引 要查找Manhattan区的电话总数。布尔索引是pandas中非常常见的技术。本质上,它对数据框架应用筛选,只选择符合条件的记录。...在df[]中,这个表达式df['Borough']=='MANHATTAN'返回一个完整的True值或False值列表(2440个条目),因此命名为“布尔索引”。...一旦将这个布尔索引传递到df[]中,只有具有True值的记录才会返回。这就是上图2中获得1076个条目的原因。...图3:Python pandas布尔索引 使用已筛选的数据框架,可以选择num_calls列并计算总和sum()。
因为我们的具体目标是向你展示下面这些: 1、创建一个日期范围 2、处理时间戳数据 3、将字符串数据转换为时间戳 4、数据帧中索引和切片时间序列数据 5、重新采样不同时间段的时间序列汇总/汇总统计数据 6...如果想要处理已有的实际数据,可以从使用pandas read_csv将文件读入数据帧开始,但是我们将从处理生成的数据开始。...' df.head(10) } 能够用实际值(如时间段的平均值)填充丢失的数据通常很有用,但请始终记住,如果您正在处理时间序列问题并希望数据真实,则不应像查找未来和获取你在那个时期永远不会拥有的信息...3、丢失的数据可能经常发生-确保您记录了您的清洁规则,并且考虑到不回填您在采样时无法获得的信息。 4、请记住,当您对数据重新取样或填写缺少的值时,您将丢失有关原始数据集的一定数量的信息。...我建议您跟踪所有的数据转换,并跟踪数据问题的根本原因。 5、当您对数据重新取样时,最佳方法(平均值、最小值、最大值、和等等)将取决于您拥有的数据类型和取样方式。要考虑如何重新对数据取样以便进行分析。
Pandas库 Pandas数据结构 1、Series (1)概念: Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签(即索引)组成。...(3)获取DataFrame的值(行或列) 通过查找columns值获取对应的列。(下面两种方法) 通过索引字段ix查找相应的行。 (4)对列进行赋值处理。 对某一列可以赋一个标量值也可以是一组值。...obj.rank() (2)DataFrame数据结构的排序和排名 按索引值进行排列,一列或多列中的值进行排序,通过by将列名传递给sort_index. 5、缺失数据处理 (1)滤出缺失数据 使用data.dropna...(2)填充缺失数据 通过调用函数fillna,并给予这个函数一个值,则该数组中所有的缺失值都将被这个值填充。df.fillna(0)——缺失值都将被0填充。...根据数组中数据的类型不同,产生的统计指标不同,有最值、分位数(四分位、四分之三)、标准差、方差等指标。 7、唯一值的获取 此方法可以用于显示去重后的数据。
领取专属 10元无门槛券
手把手带您无忧上云