首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 秘籍:1~5

通常,您希望对单个组件而不是对整个数据帧进行操作。 准备 此秘籍将数据帧的索引,列和数据提取到单独的变量中,然后说明如何从同一对象继承列和索引。...通常,这些新列将从数据集中已有的先前列创建。 Pandas 有几种不同的方法可以向数据帧添加新列。 准备 在此秘籍中,我们通过使用赋值在影片数据集中创建新列,然后使用drop方法删除列。...许多秘籍将与第 1 章,“Pandas 基础”中的内容类似,这些内容主要涵盖序列操作。 选择数据帧的多个列 选择单个列是通过将所需的列名作为字符串传递给数据帧的索引运算符来完成的。...这些布尔值通常存储在序列或 NumPy ndarray中,通常是通过将布尔条件应用于数据帧中的一个或多个列来创建的。...布尔序列的每个值的取值为 0 或 1,因此所有适用于数值的序列方法也适用于布尔值。 准备 在此秘籍中,我们通过将条件应用于数据列来创建布尔序列,然后从中计算汇总统计信息。

37.6K10

精通 Pandas 探索性分析:1~4 全

这为我们提供了索引为7的行和列为Metro的值。 我们还可以通过按索引而不是列名来引用列来实现此选择。 为此,我们将使用iloc方法。 在iloc方法中,我们需要将行和列都作为索引号传递。.../img/2e38ec82-41b2-4465-b694-8373acfba5f6.png)] 过滤 Pandas 数据帧的行 在本节中,我们将学习从 Pandas 数据帧过滤行和列的方法,并将介绍几种方法来实现此目的...我们可以使用isin方法通过一个或多个特定列的值列表来过滤数据集。 在这里,我们仅从Metro列中选择值New York或San Francisco的那些记录。...我们可以使用它来将列中的所有值转换为大写。 我们通过在序列中调用str.upper来实现。...重命名 Pandas 数据帧中的列 在本节中,我们将学习在 Pandas 中重命名列标签的各种方法。 我们将学习如何在读取数据后和读取数据时重命名列,并且还将看到如何重命名所有列或特定列。

28.2K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    手把手教你用Pandas透视表处理数据(附学习资料)

    本文重点解释pandas中的函数pivot_table,并教大家如何使用它来进行数据分析。...所以,本文将重点解释pandas中的函数pivot_table,并教大家如何使用它来进行数据分析。 如果你对这个概念不熟悉,维基百科上对它做了详细的解释。...pd.pivot_table(df,index=["Manager","Rep"]) 可以看到,透视表比较智能,它已经开始通过将“Rep”列和“Manager”列进行对应分组,来实现数据聚合和总结。...我一般的经验法则是,一旦你使用多个“grouby”,那么你需要评估此时使用透视表是否是一种好的选择。 高级透视表过滤 一旦你生成了需要的数据,那么数据将存在于数据帧中。...所以,你可以使用自定义的标准数据帧函数来对其进行过滤。

    3.2K50

    用Python执行SQL、Excel常见任务?10个方法全搞定!

    轻松地使用它来快速查看数据集,而无需加载整个数据集!如果要查看特定数量的行,还可以在 head() 方法中插入行数。 ? ?...请注意,Python 索引从0开始,而不是1,这样,如果要调用 dataframe 中的第一个值,则使用0而不是1!你可以通过在圆括号内添加你选择的数字来更改显示的行数。试试看!...在 Excel 中,你可以右键单击并找到将列数据转换为不同类型的数据的方法。你可以复制一组由公式呈现的单元格,并将其粘贴为值,你可以使用格式选项快速切换数字,日期和字符串。...现在,可以对我们以前不能做的人均 GDP 列进行各种计算,包括通过不同的值过滤列,并确定列的百分位数值。 07 选择/过滤数据 任何数据分析师的基本需求是将大型数据集分割成有价值的结果。...在 SQL 中,这是通过混合使用 SELECT 和不同的其他函数实现的,而在 Excel 中,可以通过拖放数据和执行过滤器来实现。 你可以使用 Pandas 库不同的方法或查询快速过滤。

    8.3K20

    如何用 Python 执行常见的 Excel 和 SQL 任务

    轻松地使用它来快速查看数据集,而无需加载整个数据集!如果要查看特定数量的行,还可以在 head() 方法中插入行数。 ? ?...在 Excel 中,你可以右键单击并找到将列数据转换为不同类型的数据的方法。你可以复制一组由公式呈现的单元格,并将其粘贴为值,你可以使用格式选项快速切换数字,日期和字符串。...现在,可以对我们以前不能做的人均 GDP 列进行各种计算,包括通过不同的值过滤列,并确定列的百分位数值。 选择/过滤数据 任何数据分析师的基本需求是将大型数据集分割成有价值的结果。...在 SQL 中,这是通过混合使用 SELECT 和不同的其他函数实现的,而在 Excel 中,可以通过拖放数据和执行过滤器来实现。 你可以使用 Pandas 库不同的方法或查询快速过滤。...现在我们有一个连接表,我们希望将国家和人均 GDP 按其所在地区进行分组。 我们现在可以使用 Pandas 中的 group 方法排列按区域分组的数据。 ? ?

    10.8K60

    利用Pandas数据过滤减少运算时间

    1、问题背景我有一个包含37456153行和3列的Pandas数据帧,其中列包括Timestamp、Span和Elevation。...我创建了一个名为mesh的numpy数组,它保存了我最终想要得到的等间隔Span数据。最后,我决定对数据帧进行迭代,以获取给定的时间戳(代码中为17300),来测试它的运行速度。...代码中for循环计算了在每个增量处+/-0.5delta范围内的平均Elevation值。我的问题是: 过滤数据帧并计算单个迭代的平均Elevation需要603毫秒。...Pandas数据过滤的运行速度。...这些技巧可以帮助大家根据特定条件快速地筛选出需要的数据,从而减少运算时间。根据大家的具体需求和数据集的特点,选择适合的方法来进行数据过滤。

    11510

    精通 Pandas:1~5

    在本章中,我将通过使用 IPython(一个基于浏览器的界面,使用户可以交互地向 Python 解释器键入命令)的众多示例来介绍这些资料。...例如,如果我们希望通过将默认值替换为缺失值来消除缺失值,则此掩码功能可能非常有用。 在这里,缺失值''被替换为'USA'作为默认国家/地区。...默认行为是为未对齐的序列结构生成索引的并集。 这是可取的,因为信息可以保留而不是丢失。 在本书的下一章中,我们将处理 Pandas 中缺失的值。 数据帧 数据帧是一个二维标签数组。...通过将键列指定为列表来指定多个列用作键。...使用melt函数 melt函数使我们能够通过将数据帧的某些列指定为 ID 列来转换它。 这样可以确保在进行任何重要的转换后,它们始终保持为列。

    19.2K10

    30 个小例子帮你快速掌握Pandas

    通过将isna与sum函数一起使用,我们可以看到每列中缺失值的数量。 df.isna().sum() ? 6.使用loc和iloc添加缺失值 我正在做这个例子来练习loc和iloc。...考虑上一步(df_new)中的DataFrame。我们希望将小于6的客户的Balance设置为0。...低基数意味着与行数相比,一列具有很少的唯一值。例如,Geography列具有3个唯一值和10000行。 我们可以通过将其数据类型更改为category来节省内存。...25.绘制直方图 Pandas不是数据可视化库,但用它创建一些基本图形还是非常简单的。 我发现使用Pandas创建基本图比使用其他数据可视化库更容易。 让我们创建Balance列的直方图。...29.根据字符串过滤 我们可能需要根据文本数据(例如客户名称)过滤观察结果(行)。我已经将虚构名称添加到df_new DataFrame中。 ? 让我们选择客户名称以Mi开头的行。

    10.8K10

    Pandas 秘籍:6~11

    不幸的是,至少在这种情况下,Pandas 按字母顺序为我们排序了几个月。 我们可以通过将Month的数据类型更改为分类变量来解决此问题。 分类变量将每列的所有值映射为一个整数。...将多个变量存储为列值时进行整理 在同一单元格中存储两个或多个值时进行整理 在列名和值中存储变量时进行整理 将多个观测单位存储在同一表中时进行整理 介绍 前几章中使用的所有数据集都没有做太多或做任何工作来更改其结构...append方法最不灵活,仅允许将新行附加到数据帧。concat方法非常通用,可以在任一轴上组合任意数量的数据帧或序列。join方法通过将一个数据帧的列与其他数据帧的索引对齐来提供快速查找。...join: 数据帧方法 水平组合两个或多个 Pandas 对象 将调用的数据帧的列或索引与其他对象的索引(而不是列)对齐 通过执行笛卡尔积来处理连接列/索引上的重复值 默认为左连接,带有内,外和右选项...默认情况下,merge尝试对齐每个数据帧中具有相同名称的列中的值。 但是,您可以通过将布尔参数left_index和right_index设置为True来选择使其与索引对齐。

    34K10

    Python数据分析-pandas库入门

    导入 pandas 模块,和常用的子模块 Series 和 DataFrame import pands as pd from pandas import Series,DataFrame 通过传递值列表来创建...代码示例: import pandas as pd obj = pd.Series([1,4,7,8,9]) obj Series 的字符串表现形式为:索引在左边,值在右边。...使用 NumPy 函数或类似 NumPy 的运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)都会保留索引值的链接,代码示例: obj2*2 np.exp(obj2) 还可以将 Series...,可以将 DataFrame 的列获取为一个 Series,代码示例: frame2['state'] frame2.state 列可以通过赋值的方式进行修改,赋值方式类似 Series。...例如,我们可以给那个空的 “debt” 列赋上一个标量值或一组值(数组或列表形式),代码示例: frame2.debt = np.arange(6.) frame2 注意:将列表或数组赋值给某个列时,

    3.7K20

    30 个 Python 函数,加速你的数据分析处理速度!

    通过将 isna 与 sum 函数一起使用,我们可以看到每列中缺失值的数量。...df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True) 17.将特定列设置为索引 我们可以将数据帧中的任何列设置为索引...例如,地理列具有 3 个唯一值和 10000 行。 我们可以通过将其数据类型更改为"类别"来节省内存。...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡列的直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多的小数点。...30.设置数据帧样式 我们可以通过使用返回 Style 对象的 Style 属性来实现此目的,它提供了许多用于格式化和显示数据框的选项。例如,我们可以突出显示最小值或最大值。

    9.4K60

    Pandas 学习手册中文第二版:1~5

    以下显示Missoula列中大于82度的值: 然后可以将表达式的结果应用于数据帧(和序列)的[]运算符,这仅导致返回求值为True的表达式的行: 该技术在 pandas 术语中称为布尔选择,它将构成基于特定列中的值选择行的基础...创建数据帧期间的行对齐 选择数据帧的特定列和行 将切片应用于数据帧 通过位置和标签选择数据帧的行和列 标量值查找 应用于数据帧的布尔选择 配置 Pandas 我们使用以下导入和配置语句开始本章中的示例...由于在创建时未指定索引,因此 Pandas 创建了一个基于RangeIndex的标签,标签的开头为 0。 数据在第二列中,由值1至5组成。 数据列上方的0是该列的名称。...我们将通过首先学习选择列,然后选择行,在单个语句中选择行和列的组合以及使用布尔选择来检查这些内容。 此外,pandas 提供了一种构造,用于在我们将要研究的特定行和列上选择单个标量值。...该技术很重要,并且存在,因为它是访问这些值的一种非常高性能的方法。 选择数据帧的列 使用[]运算符选择DataFrame特定列中的数据。 这与Series不同,在Series中,[]指定了行。

    8.3K10

    10招!看骨灰级Pythoner如何玩转Python

    (或者,你可以在linux中使用 head 命令来检查任何文本文件中的前5行,例如:head -c 5 data.txt) 然后,你可以使用df.columns.tolist()来提取列表中的所有列,然后添加...缺失值的数量 构建模型时,你可能希望排除具有很多缺失值或全是缺失值的行。你可以使用.isnull()和.sum()来计算指定列中缺失值的数量。...选择具有特定ID的行 在SQL中,我们可以使用SELECT * FROM ... WHERE ID( A001 , C022 ,...)来获取具有特定ID的记录。...Percentile groups 你有一个数字列,并希望将该列中的值分类为组,例如将列的前5%,分为组1,前5-20%分为组2,前20%-50%分为组3,最后50%分为组4。...如果列同时包含缺失值和整数,则数据类型仍将是float而不是int。导出表时,可以添加float_format = %。0f 将所有浮点数舍入为整数。

    2.4K30

    涨姿势!看骨灰级程序员如何玩转Python

    (或者,你可以在linux中使用'head'命令来检查任何文本文件中的前5行,例如:head -c 5 data.txt) 然后,你可以使用df.columns.tolist()来提取列表中的所有列,然后添加...缺失值的数量 构建模型时,你可能希望排除具有很多缺失值或全是缺失值的行。你可以使用.isnull()和.sum()来计算指定列中缺失值的数量。 1....选择具有特定ID的行 在SQL中,我们可以使用SELECT * FROM ... WHERE ID('A001','C022',...)来获取具有特定ID的记录。...Percentile groups 你有一个数字列,并希望将该列中的值分类为组,例如将列的前5%,分为组1,前5-20%分为组2,前20%-50%分为组3,最后50%分为组4。...如果列同时包含缺失值和整数,则数据类型仍将是float而不是int。导出表时,可以添加float_format ='%。0f'将所有浮点数舍入为整数。

    2.3K20

    Python探索性数据分析,这样才容易掌握

    使用 Pandas 库,你可以将数据文件加载到容器对象(称为数据帧, dataframe)中。...我们这份数据的第一个问题是 ACT 2017 和 ACT 2018 数据集的维度不一致。让我们使用( .head() )来更好地查看数据,通过 Pandas 库展示了每一列的前五行,前五个标签值。...我将以 2018 年 ACT 数据为例: ? 在预览了其他数据的前五行之后,我们推断可能存在一个问题,即各个州的数据集是如何存入的。...首先,让我们使用 .value_counts() 方法检查 ACT 2018 数据中 “State” 列的值,该方法按降序显示数据帧中每个特定值出现的次数: ?...我的方法如下图展示: ? 函数 compare_values() 从两个不同的数据帧中获取一列,临时存储这些值,并显示仅出现在其中一个数据集中的任何值。

    5K30

    NumPy 和 Pandas 数据分析实用指南:1~6 全

    探索序列和数据帧对象 我们将开始研究 Pandas 序列和数据帧对象。 在本节中,我们将通过研究 Pandas 序列和数据帧的创建方式来开始熟悉它们。 我们将从序列开始,因为它们是数据帧的构建块。...dict的值可以对应于数据帧的列;例如, 可以将其视为告诉如何填充每一列中的缺失信息。 如果使用序列来填充序列中的缺失信息,那么过去的序列将告诉您如何用缺失的数据填充序列中的特定条目。...类似地,当使用数据帧填充数据帧中的丢失信息时,也是如此。 如果使用序列来填充数据帧中的缺失信息,则序列索引应对应于数据帧的列,并且它提供用于填充该数据帧中特定列的值。...我们可以使用sort_index方法重新排列数据帧的行,以使行索引按顺序排列。 我们还可以通过将sort_index的访问参数设置为1来对列进行排序。...在本节中,我们将讨论在特定实例之外使用 Python 进行可视化的程度,即使可视化是从初始探索到呈现结果的数据分析的关键部分。 我建议寻找其他资源以了解有关可视化的更多信息。

    5.4K30

    7个有用的Pandas显示选项

    所以就需要使用Pandas的一些定制功能来帮助我们自定义内容的显示方式。 1、控制显示的行数 在查看数据时,我们希望看到比默认行数更多或更少的行数(默认行数为10)。...如果数据中的行数超过此值,则显示将被截断。默认设置为60。 如果希望显示所有行,则需要将display.max_rows设置为None。如果数据非常大,这可能会占用很多资源并且降低计算速度。...2、控制显示的列数 当处理包含大量列的数据集时,pandas将截断显示,默认显示20列。...默认情况下,Pandas将在小数点后显示6个位。 为了使它更容易阅读,可以通过调用display.precision来减少显示的值的数量。...可以使用matplotlib来构建一个plot,但是在Pandas中可以使用.plot()方法使用几行代码来完成它。

    1.3K40
    领券