首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 秘籍:1~5

在本章中,您将学习如何从数据帧中选择一个数据列,该数据列将作为序列返回。 使用此一维对象可以轻松显示不同的方法和运算符如何工作。 许多序列方法返回另一个序列作为输出。...通常,您希望对单个组件而不是对整个数据帧进行操作。 准备 此秘籍将数据帧的索引,列和数据提取到单独的变量中,然后说明如何从同一对象继承列和索引。...如果传递了字符串,它将返回一维序列。 如果将列表传递给索引运算符,它将以指定顺序返回列表中所有列的数据帧。 步骤 2 显示了如何选择单个列作为数据帧而不是序列。...查看步骤 1 中第一个数据帧的输出,并将其与步骤 3 中的输出进行比较。它们是否相同? 没有! 发生了什么?...当我们需要两组电影时,步骤 3 使用 Pandas 逻辑or运算符将它们组合在一起。 步骤 4 显示了布尔索引工作原理的确切语法。 您只需将从第 3 步创建的布尔值序列直接传递给索引运算符即可。

37.6K10

Pandas 秘籍:6~11

它接受所有列名并转置它们,因此它们成为新的最里面的索引级别。 请注意,每个旧列名称仍如何通过与每个状态配对来标记其原始值。3 x 3数据帧中有 9 个原始值,这些值被转换为具有相同数量值的单个序列。...准备 在此秘籍中,我们将水平和垂直方向的数据帧与concat函数结合在一起,然后更改参数值以产生不同的结果。...步骤 16 显示了一个常见的 Pandas 习惯用法,用于在将它们与concat函数组合在一起之前,将多个类似索引的数据帧收集到一个列表中。 连接到单个数据帧后,我们应该目视检查它以确保其准确性。...在数据帧的当前结构中,它无法基于单个列中的值绘制不同的组。 但是,第 23 步显示了如何设置数据帧,以便 Pandas 可以直接绘制每个总统的数据,而不会像这样循环。...这是一种遍历所有文件,将它们读入数据帧并将它们全部与concat函数组合在一起的理想情况。glob模块具有glob函数,该函数采用一个参数-您要作为字符串迭代的目录的位置。

34K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Pandas 学习手册中文第二版:1~5

    pandas 从统计编程语言 R 中带给 Python 许多好处,特别是数据帧对象和 R 包(例如plyr和reshape2),并将它们放置在一个可在内部使用的 Python 库中。...代替单个值序列,数据帧的每一行可以具有多个值,每个值都表示为一列。 然后,数据帧的每一行都可以对观察对象的多个相关属性进行建模,并且每一列都可以表示不同类型的数据。...这种自动对齐方式使数据帧比电子表格或数据库更有能力进行探索性数据分析。 结合在行和列上同时切片数据的功能,这种与数据帧中的数据进行交互和浏览的功能对于查找所需信息非常有效。...可以从一个或一组多维数据集创建一个数据帧。...这些行尚未从sp500数据中删除,对这三行的更改将更改sp500中的数据。 防止这种情况的正确措施是制作切片的副本,这会导致复制指定行的数据的新数据帧。

    8.3K10

    精通 Pandas 探索性分析:1~4 全

    二、数据选择 在本章中,我们将学习使用 Pandas 进行数据选择的高级技术,如何选择数据子集,如何从数据集中选择多个行和列,如何对 Pandas 数据帧或一序列数据进行排序,如何过滤 Pandas 数据帧的角色.../img/25cab1c9-c671-4ddc-8cf5-565d672d6848.png)] 更改 Pandas 序列的数据类型 在本节中,我们将学习如何更改 Pandas 序列的数据类型。...我们还研究了字符串方法在 Pandas 中的使用,最后,我们学习了如何更改 Pandas 序列的数据类型。 在下一章中,我们将学习处理,转换和重塑数据的技术。...在 Pandas 数据帧中建立索引 在本节中,我们将探讨如何设置索引并将其用于 Pandas 中的数据分析。 我们将学习如何在读取数据后以及读取数据时在DataFrame上设置索引。...在本节中,我们探讨了如何设置索引并将其用于 Pandas 中的数据分析。 我们还学习了在读取数据后如何在数据帧上设置索引。 我们还看到了如何在从 CSV 文件读取数据时设置索引。

    28.2K10

    NumPy 和 Pandas 数据分析实用指南:1~6 全

    探索序列和数据帧对象 我们将开始研究 Pandas 序列和数据帧对象。 在本节中,我们将通过研究 Pandas 序列和数据帧的创建方式来开始熟悉它们。 我们将从序列开始,因为它们是数据帧的构建块。...好消息是,在谈论序列切片时,许多艰苦的工作已经完成。 我们介绍了loc和iloc作为连接方法,但它们也是数据帧方法。 毕竟,您应该考虑将数据帧视为多个列粘合在一起的序列。...序列和数据帧不是不可变的对象。 您可以更改其内容。 这类似于更改 NumPy 数组中的内容。 但是,在跨列进行更改时要小心; 它们可能不是同一数据类型,从而导致不可预测的结果。...总结 在本章中,我们介绍了 Pandas 并研究了它的作用。 我们探索了 Pandas 序列数据帧并创建了它们。 我们还研究了如何将数据添加到序列和数据帧中。 最后,我们介绍了保存数据帧。...处理 Pandas 数据帧中的丢失数据 在本节中,我们将研究如何处理 Pandas 数据帧中的丢失数据。 我们有几种方法可以检测对序列和数据帧都有效的缺失数据。

    5.4K30

    【数据分析】数据缺失影响模型效果?是时候需要missingno工具包来帮你了!

    数据丢失的原因很多,包括传感器故障、数据过时、数据管理不当,甚至人为错误。丢失的数据可能以单个值、一个要素中的多个值或整个要素丢失的形式出现。...如果我们看一下DRHO,它的缺失与RHOB、NPHI和PEF列中的缺失值高度相关。 热图方法更适合于较小的数据集。 树状图 树状图提供了一个通过层次聚类生成的树状图,并将空相关度很强的列分组在一起。...树状图可通过以下方式生成: msno.dendrogram(df) 在上面的树状图中,我们可以看到我们有两个不同的组。第一个是在右侧(DTS、RSHA和DCAL),它们都具有高度的空值。...LITHOFACIES, GR, GROUP, WELL, 和 DEPTH_MD 都归为零,表明它们是完整的。 RDEP、ZïLOC、XïLOC和YïLOC组合在一起,接近于零。...这可以通过使用missingno库和一系列可视化来实现,以了解有多少缺失数据存在、发生在哪里,以及不同数据列之间缺失值的发生是如何关联的。

    4.8K30

    精通 Pandas:1~5

    一、Pandas 和数据分析简介 在本章中,我们解决以下问题: 数据分析的动机 如何将 Python 和 Pandas 用于数据分析 Pandas 库的描述 使用 Pandas 的好处 数据分析的动机...至于序列和数据帧,有创建面板对象的不同方法。 它们将在后面的章节中进行解释。 将 3D NumPy 数组与轴标签一起使用 在这里,我们展示了如何从 3D NumPy 数组构造面板对象。...在前面的情况下,指定了dict,并且将键值用作结果数据帧中列的名称。 请注意,在单个样本大小的组的情况下,标准差未定义,结果为NaN,例如,罗马尼亚。...在这里,我们可以看到数据帧已旋转,并且该组现在已从行索引(标题)更改为列索引(标题),从而使数据帧看起来更加紧凑。...这对于显示数据以进行可视化或准备数据以输入其他程序或算法非常有用。 在下一章中,我们将研究一些数据分析中有用的任务,可以应用 Pandas,例如处理时间序列数据以及如何处理数据中的缺失值。

    19.2K10

    识别自动驾驶的深度

    此方法不需要训练的基本事实数据集。相反,它们使用图像序列中的连续时间帧来提供训练信号。为了帮助限制学习,使用了姿势估计网络。在输入图像与从姿势网络和深度网络的输出重建的图像之间的差异上训练模型。...[1]中的最终损失函数在每个像素,比例和批次上平均。 结果 作者在包含驱动序列的三个数据集上比较了他们的模型。在所有实验中,方法均胜过几乎所有其他方法。下图显示了它们的性能示例: ?...它们通过预测单个对象而不是整个图像的运动来改善姿势网络。因此,现在重建的图像序列不再是单个投影,而是组合在一起的一系列投影。...使用步骤3中产生的自我运动转换矩阵,并将其应用于帧-1和帧+1,以获取变形的帧0。...蒙版图像与变形图像组合在一起,并传递到对象运动模型,该模型输出预测的对象运动。 ? 一个对象的对象运动模型。来自[3]的方程 结果表示了相机必须如何移动才能“解释”对象外观的变化。

    1.1K10

    Pandas 学习手册中文第二版:11~15

    实体往往代表现实世界中的事物,例如一个人,或者在物联网中,是一个传感器。 然后,使用单个数据帧对每个特定实体及其度量进行建模。 通常需要在模型中的实体上和实体之间执行各种任务。...合并非常有用,因为它们允许我们为每种类型的数据(拥有整洁数据的规则之一)建模单个DataFrame,但能够使用两组数据中都存在的值来关联不同DataFrame对象中的数据。...介绍了拆分应用组合模式,并概述了如何在 Pandas 中实现这种模式。 然后,我们学习了如何基于列和索引级别中的数据将数据分为几组。 然后,我们研究了如何使用聚合函数和转换来处理每个组中的数据。...我们快速检查了如何根据数据组的内容过滤数据组。 在下一章中,我们将深入研究 Pandas 最强大,最强大的功能之一 – 时间序列数据建模。...,那么拥有一个可以读取多个报价器的数据并将它们全部返回到单个数据结构中的函数将很方便。

    3.4K20

    panda python_12个很棒的Pandas和NumPy函数,让分析事半功倍

    参考链接: Python | 使用Panda合并,联接和连接DataFrame 本文转载自公众号“读芯术”(ID:AI_Discovery)  大家都知道Pandas和NumPy函数很棒,它们在日常分析中起着重要的作用...Pandas非常适合许多不同类型的数据:  具有异构类型列的表格数据,例如在SQL表或Excel电子表格中  有序和无序(不一定是固定频率)的时间序列数据。  ...以下是Pandas的优势:  轻松处理浮点数据和非浮点数据中的缺失数据(表示为NaN)  大小可变性:可以从DataFrame和更高维的对象中插入和删除列  自动和显式的数据对齐:在计算中,可以将对象显式对齐到一组标签...1. apply()  Apply() 函数允许用户传递函数并将其应用于Pandas序列中每个单一值。  ...将数据帧分配给另一个数据帧时,在另一个数据帧中进行更改,其值也会进行同步更改。为了避免出现上述问题,可以使用copy()函数。

    5.1K00

    Python 数据可视化之山脊线图 Ridgeline Plots

    在行为差异、特征工程和预测建模等场景中,了解不同组之间的变量分布差异非常有用。在这些情况下,许多数据科学家更喜欢在单一坐标轴上绘制组级分布图,例如直方图或密度图。...常用 pandas 的 DataFrame。 ax : matplotlib axes 对象,默认为 None。 column:字符串或序列。如果传入参数,将用于将数据限制为列的子集。...通过将多个组的分布放置在同一张山脊线图上,并使用不同的颜色或线型进行标识,我们可以轻松比较它们之间的相似性和差异性。...空间效率:通过在单个图中堆叠,山脊线图可以有效地利用空间,避免了创建多个单独的密度图。 美观性:山脊线图在视觉上吸引人,用不同的颜色和样式区分不同的组,使得数据更加生动和直观。...趋势识别:可以轻松识别多个群体数据中的共同模式和异常值。 适用于大量数据集:山脊线图适用于展示大量数据集,而不会显得拥挤或不清晰。 如何制作山脊线图?

    52300

    Pandas 学习手册中文第二版:6~10

    六、索引数据 索引是用于优化查询序列或数据帧中的值的工具。 它们很像关系数据库中的键,但是功能更强大。 它们为多组数据提供了对齐方式,还带有如何处理数据的各种任务(如重采样到不同频率)的语义。...为了简要说明这一点,下面的代码创建了5-每小时时间段的范围,并将它们用作该序列的索引。...下面的屏幕截图通过创建一个数据帧并将其值转换为category的第二列来说明这一点,该数据帧的一列然后是第二列。...以下代码提取了df的一小部分,并将其从完整的数据帧中减去。...内置于 Pandas 中的是这些描述性统计操作的几类,它们可以应用于序列或数据帧。

    2.3K20

    干货 | 万物皆可「计算机视觉」

    每个级别的信息都是独立处理的,然后依次将它们组合在一起。在组合信息时,我们对特征图进行上采样以最终获得完整的图像分辨率。 要了解更多有关如何用深度学习进行分割的详细信息,请查看此文章。 ?...以这种方式训练模型与子网络将共同优化检测关键点并将它们连接在一起。 ? 开放式姿态估计体系结构 增强和恢复 增强和恢复网络是它们自己的独特之处。...直接进行图像的批量传递 视频帧可以通过以下几种方式传递: (1) 直接以大批量,如图 1 所示。由于我们正在传递一组序列帧,因此空间和时间信息都是可用的 ? 单帧+光流 (左)。...视频+光流 (右) (2) 我们还可以在一个流 (数据的空间信息) 中传递单个图像帧,并从视频 (数据的时间信息) 中传递其相应的光流表示。...我们将使用常规的 2D CNNs 从两者中提取特征,然后将它们组合起来传递给我们的 3D CNN,它将组合这两种类型的信息 (3) 将我们的帧序列传递给一个 3D CNN,将视频的光流表示传递给另一个

    63930

    精通 Pandas:6~11

    您可以从官方文档中获取更多信息。 处理时间序列 在本节中,我们向您展示如何处理时间序列数据。 我们将首先展示如何使用从csv文件中读取的数据创建时间序列数据。...有关更多信息,请参阅这个链接中的文档。 总结 总而言之,我们讨论了如何处理缺失的数据值以及如何处理 Pandas 中的日期和时间序列。...它提供了对 NumPy 的内置支持,并将 C 的性能与 Python 的可用性结合在一起。 我们将快速演示如何使用 Cython 大大加快代码速度。...在本章中,我们将重点关注列表和数据帧,它们具有与序列和数据帧等效的 Pandas。 注意 有关 R 数据类型的更多信息,请参考这个文档。 对于 NumPy 数据类型,请参考这个文档和这个文档。...下面的函数在数据帧中查找具有空值的单元格,获取一组相似的乘客,并将空值设置为该组相似乘客的该特征的平均值。 相似的乘客定义为与具有零特征值的乘客具有相同性别和乘客等级的乘客。

    3.1K10

    Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化|附代码数据

    p=27078 最近我们被客户要求撰写关于KShape对时间序列进行聚类的研究报告,包括一些图形和统计输出。 时序数据的聚类方法,该算法按照以下流程执行。...import pandas as pd     # 读取数据帧,将其转化为时间序列数组,并将其存储在一个列表中    tata = []    for i, df in enmee(dfs):         ...        # 检查每个时间序列数据的最大长度。        ...# 文件列表flnes= soted(go.ob('mpldat/smeda*.csv')) # 从文件中加载数据帧并将其存储在一个列表中。...它是一种更改簇数,绘制每个 SSE 值,并将像“肘”一样弯曲的点设置为最佳簇数的方法。 #计算到1~10个群组 for i  in range(1,11):     #进行聚类计算。

    67500

    Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化|附代码数据

    p=27078  时序数据的聚类方法,该算法按照以下流程执行。 使用基于互相关测量的距离标度(基于形状的距离:SBD) 根据 1 计算时间序列聚类的质心。...import pandas as pd     # 读取数据帧,将其转化为时间序列数组,并将其存储在一个列表中    tata = []    for i, df in enmee(dfs):         ...        # 检查每个时间序列数据的最大长度。        ...# 文件列表flnes= soted(go.ob('mpldat/smeda*.csv')) # 从文件中加载数据帧并将其存储在一个列表中。...它是一种更改簇数,绘制每个 SSE 值,并将像“肘”一样弯曲的点设置为最佳簇数的方法。 #计算到1~10个群组 for i  in range(1,11):     #进行聚类计算。

    1.4K20

    TensorFlow 和 Keras 应用开发入门:1~4 全

    但是,损失函数仅描述训练数据与验证数据之间的关系。 为了评估模型是否正确执行,我们通常使用第三组数据(该数据不用于训练网络),并将模型做出的预测与该组数据中的可用值进行比较。 那就是测试集的作用。...LSTM 旨在预测序列。 因此,即使是回归问题,我们也不使用一组变量来预测另一个变量。 相反,我们使用单个变量(或一组变量)的先前观察值来预测同一变量(或一组变量)的未来观察结果。...在本节中,我们定义了函数denormalize(),该函数执行完整的反规范化过程。 与其他函数不同,此函数采用 Pandas 数据帧而不是 NumPy 数组。 我们这样做是为了将日期用作索引。...双曲正切(Tanh) Tanh 是非线性函数,由以下公式表示: 表示将连续评估它们对节点的影响。 同样,由于其非线性,可以使用此函数来更改一层如何影响链中的下一层。...此方法从 CoinMarketCap 网站收集数据,对其进行解析,然后返回 Pandas 数据帧。 historic()类返回一个 Pandas DataFrame,准备由Model()类使用。

    1.1K20

    Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化|附代码数据

    p=27078 最近我们被客户要求撰写关于时间序列进行聚类的研究报告,包括一些图形和统计输出。 时序数据的聚类方法,该算法按照以下流程执行。...import pandas as pd     # 读取数据帧,将其转化为时间序列数组,并将其存储在一个列表中    tata = []    for i, df in enmee(dfs):         ...        # 检查每个时间序列数据的最大长度。        ...# 文件列表flnes= soted(go.ob('mpldat/smeda*.csv')) # 从文件中加载数据帧并将其存储在一个列表中。...它是一种更改簇数,绘制每个 SSE 值,并将像“肘”一样弯曲的点设置为最佳簇数的方法。 #计算到1~10个群组 for i  in range(1,11):     #进行聚类计算。

    45600
    领券