首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

原创译文 | 最新顶尖数据分析师必用的15大Python库(上)

Pandas (资料数量:15089; 贡献者:762) Pandas是一个Python软件包,可以处理“标记”(labeled)和“关联”(relational)数据,简单直观。...Pandas库有两种主要数据结构: “系列”(Series)——单维结构 “数据帧”(Data Frames)——二维结构 例如,如果你通过Series在Data Frame中附加一行数据,你就能从这两种数据结构中获得一个的新的...“数据帧” 使用Pandas你可以完成以下操作: 轻松删除或添加“数据帧” bjects将数据结构转化成“数据帧对象” 处理缺失数据,用NaNs表示 强大的分组功能 4.Matplotlib (资料数量...Seaborn (资料数量:1699; 贡献者:71) Seaborn主要关注统计模型的可视化,如热图,这些可视化图形在总结数据的同时描绘数据的总体分布。...与其他的库相比,它的特别之处在于它是独立于Matplotlib的。Bokeh的主要关注点是交互性,所以它可以通过现代浏览器以数据驱动文档(d3.js)的方式进行演示。 7.

1.7K90

Pandas时序数据处理入门

因为我们的具体目标是向你展示下面这些: 1、创建一个日期范围 2、处理时间戳数据 3、将字符串数据转换为时间戳 4、数据帧中索引和切片时间序列数据 5、重新采样不同时间段的时间序列汇总/汇总统计数据 6...、计算滚动统计数据,如滚动平均 7、处理丢失的数据 8、了解unix/epoch时间的基本知识 9、了解时间序列数据分析的常见陷阱 让我们开始吧。...如果想要处理已有的实际数据,可以从使用pandas read_csv将文件读入数据帧开始,但是我们将从处理生成的数据开始。...我们可以按照下面的示例,以日频率而不是小时频率,获取数据的最小值、最大值、平均值、总和等,其中我们计算数据的日平均值: df.resample('D').mean() } 窗口统计数据,比如滚动平均值或滚动和呢...3、丢失的数据可能经常发生-确保您记录了您的清洁规则,并且考虑到不回填您在采样时无法获得的信息。 4、请记住,当您对数据重新取样或填写缺少的值时,您将丢失有关原始数据集的一定数量的信息。

4.1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python入门之数据处理——12种有用的Pandas技巧

    # 7–合并数据帧 当我们需要对不同来源的信息进行合并时,合并数据帧变得很重要。假设对于不同物业类型,有不同的房屋均价(INR/平方米)。让我们定义这样一个数据帧: ? ?...现在,我们可以将原始数据帧和这些信息合并: ? ? 透视表验证了成功的合并操作。请注意,“value”在这里是无关紧要的,因为在这里我们只简单计数。...# 8–数据帧排序 Pandas允许在多列之上轻松排序。可以这样做: ? ? 注:Pandas的“排序”功能现在已不再推荐。我们用“sort_values”代替。...在这里,我定义了一个通用的函数,以字典的方式输入值,使用Pandas中“replace”函数来重新对值进行编码。 ? ? 编码前后计数不变,证明编码成功。。...加载这个文件后,我们可以在每一行上进行迭代,以列类型指派数据类型给定义在“type(特征)”列的变量名。 ? ? 现在的信用记录列被修改为“object”类型,这在Pandas中表示名义变量。

    5K50

    Pandas 秘籍:1~5

    get_dtype_counts是一种方便的方法,用于直接返回数据帧中所有数据类型的计数。 同构数据是指所有具有相同类型的列的另一个术语。 整个数据帧可能包含不同列的不同数据类型的异构数据。...随着 Pandas 越来越大,越来越流行,事实证明,对象数据类型对于具有字符串值的所有列来说太通用了。 Pandas 创建了自己的分类数据类型,以处理具有固定数量的可能值的字符串(或数字)列。...操作步骤 要获得缺失值的计数,必须首先调用isnull方法以将每个数据帧值更改为布尔值。.../img/00040.jpeg)] 获取数字列的摘要统计信息,并转置数据帧以获得更可读的输出: >>> college.describe(include=[np.number]).T [外链图片转存失败...从某种意义上说,Pandas 结合了使用整数(如列表)和标签(如字典)选择数据的能力。 选择序列数据 序列和数据帧是复杂的数据容器,具有多个属性,这些属性使用索引运算符以不同方式选择数据。

    37.6K10

    Java代码是如何被CPU狂飙起来的?

    运行时数据区主要划分了堆、程序计数器虚拟机栈、本地方法栈以及元空间数据区。其中堆数据区域在JVM启动后便会进行分配,而虚拟机栈、程序计数器本地方法栈都是在常见线程后进行分配。...,在Test.class类中,开始执行mian方法 ,因此JVM会虚拟机栈中压入main方法对应的帧栈帧; 3、在栈帧的操作数栈中存储了操作的数据,JVM执行字节码指令的时候从操作数栈中获取数据,执行计算操作之后再将结果压入操作数栈...,因此Java线程执行业务逻辑的时候必须借助于程序计数器才能获得下一步命令的地址; 7、当calculate方法执行完成之后,对应的栈帧将从虚拟机栈中弹出,其中方法执行的结果会被压入main方法对应的栈帧中的操作数栈中...实际上在运行时数据区数据流转的过程中,CPU已经参与其中了。程序的本质是为了根据输入获得相应的输出,而CPU本质就是根据程序的指令一步步执行获得结果的工具。...主要经历了以下几个步骤: 1、保存当前程序状态 CPU会将当前程序的状态(如程序计数器、寄存器、标志位等)保存到内存或栈中,以便在中断处理程序执行完毕后恢复现场。

    44612

    Pandas 秘籍:6~11

    如果笛卡尔积是 Pandas 的唯一选择,那么将数据帧的列加在一起这样的简单操作将使返回的元素数量激增。 在此秘籍中,每个序列具有不同数量的元素。...此返回的序列的索引将是新的列名。 让我们修改一下函数,以计算两个 SAT 分数的加权平均值和算术平均值,以及每个组中机构数量的计数。...第 3 步和第 4 步将每个级别拆栈,这将导致数据帧具有单级索引。 现在,按性别比较每个种族的薪水要容易得多。 更多 如果有多个分组和聚合列,则直接结果将是数据帧而不是序列。...在此秘籍中,仅连接了两个数据帧,但是任何数量的 Pandas 对象都可以工作。 当我们垂直连接时,数据帧通过其列名称对齐。...如您所见,当在其索引上对齐多个数据帧时,concat通常比合并好得多。 在第 9 步中,我们切换档位以关注merge具有优势的情况。merge方法是唯一能够按列值对齐调用和传递的数据帧的方法。

    34K10

    Pandas profiling 生成报告并部署的一站式解决方案

    import pandas as pd df = pd.read_csv("crop_production.csv") 在我讨论 pandas_profiling 之前,先看看数据帧的 Pandas...可以将DataFrame对象传递给profiling函数,然后调用创建的函数对象以开始生成分析文件。 无论采用哪种方式,都将获得相同的输出报告。我正在使用第二种方法为导入的农业数据集生成报告。...变量 报告的这一部分详细分析了数据集的所有变量/列/特征。显示的信息因变量的数据类型而异。 数值变量 对于数值数据类型特征,可以获得有关不同值、缺失值、最小值-最大值、平均值和负值计数的信息。...还可以单击切换按钮以获取有关各种相关系数的详细信息。 4. 缺失值 生成的报告还包含数据集中缺失值的可视化。您将获得 3 种类型的图:计数、矩阵和树状图。...计数图是一个基本的条形图,以 x 轴作为列名,条形的长度代表存在的值的数量(没有空值)。类似的还有矩阵和树状图。 5. 样本 此部分显示数据集的前 10 行和最后 10 行。 如何保存报告?

    3.3K10

    JVM(一)运行时数据区

    | JAVA内存区域分布与概述 运行时数据区包括 线程共享数据区:方法区、堆 线程隔离数据区:虚拟机栈、本地方法栈、堆、程序计数器 根据《Java虚拟机规范》的规定,运行时数据区通常包括这几个部分:程序计数器...由于程序计数器中存储的数据所占空间的大小不会随程序的执行而发生改变,因此,对于程序计数器是不会发生内存溢出现象(OutOfMemory)的。...Java栈中存放的是一个个的栈帧,每个栈帧对应一个被调用的方法,在栈帧中包括局部变量表(Local Variables)、操作数栈(Operand Stack)、指向当前方法所属的类的运行时常量池(运行时常量池的概念在方法区部分会谈到...当线程执行一个方法时,就会随之创建一个对应的栈帧,并将建立的栈帧压栈。当方法执行完毕之后,便会将栈帧出栈。因此可知,线程当前执行的方法所对应的栈帧必定位于Java栈的顶部。...jmap -heap 线程号(打印出某个java进程(使用pid)内存内的,所有‘对象’的情况(如:产生那些对象,及其数量)) Java堆特点: Java堆是垃圾收集器管理的主要区域,因此很多时候也被称做

    51320

    架构师成长之路:如何保证消息队列的高可用

    每个线程在创建时都会创建一个虚拟机栈,其内部保存一个个的栈帧(Stack Frame),对应着一次次的 Java 方法调用。...前面谈程序计数器时,提到了当前方法;同理,在一个时间点,对应的只会有一个活动的栈帧,通常叫作当前帧,方法所在的类叫作当前类。...如果在该方法中调用了其他方法,对应的新的栈帧会被创建出来,成为新的当前帧,一直到它返回结果或者执行结束。JVM 直接对 Java 栈的操作只有两个,就是对栈帧的压栈和出栈。...栈帧中存储着局部变量表、操作数(operand)栈、动态链接、方法正常退出或者异常退出的定义等。...这也是所有线程共享的一块内存区域,用于存储所谓的元(Meta)数据,例如类结构信息,以及对应的运行时常量池、字段、方法代码等。

    46010

    用python的pandas打开csv文件_如何使用Pandas DataFrame打开CSV文件 – python

    大家好,又见面了,我是你们的朋友全栈君。 有一个带有三列数据框的CSV格式文件。 第三栏文字较长。...但是用打开文件没有问题 with open(‘file.csv’, ‘r’, encoding=’utf-8′, errors = “ignore”) as csvfile: 我不知道如何将这些数据转换为数据帧...然后照常读取文件: import pandas csvfile = pandas.read_csv(‘file.csv’, encoding=’utf-8′) 如何使用Pandas groupby在组上添加顺序计数器列..., 7], [‘A’, ‘Y…R’relaimpo’软件包的Python端口 – python 我需要计算Lindeman-Merenda-Gold(LMG)分数,以进行回归分析。...我正在开发一个使用数据库存储联系人的小型应用程序。

    11.7K30

    5个例子比较Python Pandas 和R data.table

    在这篇文章中,我们将比较Pandas 和data.table,这两个库是Python和R最长用的数据分析包。我们不会说那个一个更好,我们这里的重点是演示这两个库如何为数据处理提供高效和灵活的方法。...我们求出了房屋的平均价格,但不知道每个地区的房屋数量。 这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。 默认情况下,这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...data.table中使用减号获得降序结果。 示例5 在最后一个示例中,我们将看到如何更改列名。例如,我们可以更改类型和距离列的名称。...inplace参数用于将结果保存在原始数据帧中。 对于data.table,我们使用setnames函数。它使用三个参数,分别是表名,要更改的列名和新列名。

    3.1K30

    30 个 Python 函数,加速你的数据分析处理速度!

    Pandas 是 Python 中最广泛使用的数据分析和操作库。它提供了许多功能和方法,可以加快 「数据分析」 和 「预处理」 步骤。...通过将 isna 与 sum 函数一起使用,我们可以看到每列中缺失值的数量。...我们可能需要检查唯一类别的数量。我们可以检查值计数函数返回的序列的大小或使用 nunique 函数。...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡列的直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多的小数点。...ser= pd.Series([2,4,5,6,72,4,6,72]) ser.pct_change() 29.基于字符串的筛选 我们可能需要根据文本数据(如客户名称)筛选观测值(行)。

    9.4K60

    使用Pandas-Profiling加速您的探索性数据分析

    这包括确定特定预测变量的范围,识别每个预测变量的数据类型以及计算每个预测变量的缺失值的数量或百分比等步骤。 pandas库为EDA提供了许多非常有用的功能。...例如可以假设数据框有891行。如果要检查,则必须添加另一行代码以确定数据帧的长度。虽然这些计算并不是非常昂贵,但一次又一次地重复这些计算确实占用了时间,可能在清理数据时更好地使用它们。...这些还包括描述每个变量分布的小型可视化: 数字变量'Age'的输出 如上所示,pandas-profiling提供了一些有用的指标,例如缺失值的百分比和数量以及之前看到的描述性统计数据。...对于分类变量,仅进行微小更改: 分类变量'Sex'的输出 pandas-profiling不是计算均值,最小值和最大值,而是计算分类变量的类计数。...由于'Sex'是一个二元变量,只找到两个不同的计数。 想知道pandas-profiling究竟是如何计算它的输出的。源代码可以在GitHub上找到。

    3.8K70

    DenseTrack,利用视觉语言模型提升密度图个体识别能力 !

    近期方法如基于计数的跟踪(Zhou等人,2018年)整合了检测、计数和跟踪以利用互补数据,证明在实时人数统计应用中是有效的(Sundararaman等人,2018年)。...定位阶段涉及将视频流中的所有帧顺序输入到人群计数网络(CN)中,以获得每帧图像的坐标列表,给定如下公式: \text{CL}_{i}=\text{CN}(I_{i}),(0\leq i计数网络定位来替代传统的检测网络。具体来说,作者将视频流中的所有帧逐帧输入,以获得它们对应的密度图。...记为,其中表示第帧中出现的个体数量,然后使用这些个体来获取对应于每个个体的子图像: 在为每帧中的每个个体获取个体局部图像块之后,作者使用BLIP2的特征提取(BE)模块来获取每个个体的外观表示: 这里获得的表示是一个维度为的矩阵...数据集具有变化的光照条件(晴朗、多云或夜间),物体大小(直径15像素或以上)和密度(每帧平均物体数量在150以上或以下)。

    15310

    20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

    Pandas是一个受众广泛的python数据分析库。它提供了许多函数和方法来加快数据分析过程。pandas之所以如此普遍,是因为它的功能强大、灵活简单。...Cumsum 示例dataframe 包含3个小组的年度数据。我们可能只对年度数据感兴趣,但在某些情况下,我们同样还需要一个累计数据。...为了获得可重复的样品,我们可以指定random_state参数。如果将整数值传递给random_state,则每次运行代码时都将生成相同的采样数据。 5....Isin 在处理数据帧时,我们经常使用过滤或选择方法。Isin是一种先进的筛选方法。例如,我们可以根据选择列表筛选数据。...df1和df2是基于column_a列中的共同值进行合并的,merge函数的how参数允许以不同的方式组合dataframe,如:“inner”、“outer”、“left”、“right”等。

    5.7K30

    【问答】JVM哪些区域会触发OOM?实践检验一下

    虚拟机栈 「存储方法执行时的局部变量表、操作数栈、动态连接、方法返回等信息」。方法开始执行,创建对应的栈帧,随着方法的执行过程变化,栈帧中的数据不断进行入栈出栈操作,当方法执行完后栈空并销毁。...变量槽的数量在 Java 文件被编译后就确定了,但是局部变量表具体占用多大内存是由不同虚拟机机制决定的。 操作数栈 顾名思义,操作数栈是一个存放操作数的栈(先进后出的数据结构)。那么操作数是什么?...方法返回地址 当一个方法执行完毕或发生异常时,方法退出后需要返回到之前被调用的方法的位置,然后程序在继续执行;当方法正常返回时,需要在当前栈帧中记录一些信息,如返回值信息等,帮助调用者恢复执行状态。...细想一下,假设不规定栈的深度的话,线程在执行方法的时候,如果方法内部出现了死循环,比如在方法内部在调用自己,导致不停的创建新的栈帧被压入虚拟机栈中,随着栈帧被不断被加入到栈中,必然需要申请更多的内存来存储数据...对于堆中对象的回收,不同垃圾收集器采用了不同的方式进行回收,以目前使用最为广泛的两种收集器为例。

    1.2K20

    【数据分析】数据缺失影响模型效果?是时候需要missingno工具包来帮你了!

    df.replace('', np.NaN) missingno 库 Missingno 是一个优秀且简单易用的 Python 库,它提供了一系列可视化,以了解数据帧中缺失数据的存在和分布。...这将返回一个表,其中包含有关数据帧的汇总统计信息,例如平均值、最大值和最小值。在表的顶部是一个名为counts的行。在下面的示例中,我们可以看到数据帧中的每个特性都有不同的计数。...这提供了并非所有值都存在的初始指示。 我们可以进一步使用.info()方法。这将返回数据帧的摘要以及非空值的计数。 从上面的例子中我们可以看出,我们对数据的状态和数据丢失的程度有了更简明的总结。...其他列(如WELL、DEPTH_MD和GR)是完整的,并且具有最大的值数。 矩阵图 如果使用深度相关数据或时间序列数据,矩阵图是一个很好的工具。它为每一列提供颜色填充。...有数据时,绘图以灰色(或您选择的颜色)显示,没有数据时,绘图以白色显示。

    4.8K30
    领券