在30秒内,完成你全部的标准数据分析,这就是用Pandas进行数据分析产生的“奇迹”。
Pandas 是 Python 中处理数据的首选库,它使用起来很容易,非常灵活,能够处理不同类型和大小的数据,而且它有大量的函数,这让操作数据简直是小菜一碟。
用Python处理过数据的人大概对pandas不陌生。
如果想处理行或列排序的格式化数据,大多数情况下,你可以使用pandas处理。如果没安装pandas,可以用你喜欢的命令终端安装,一定要用pip命令:
pip install pandas
现在,让我们看看默认的pandas实现都可以做什么:
非常简洁,但也很平淡无奇,“method”这列去哪儿?
我们解释一下上面代码和输出的含义:
Pandas的任何“数据帧”都有一个describe()方法,这个方法会返回上面的输出。但请注意,这个方法的以上输出数据中,关于类别的变量漏掉了。在上面的例子中,输出信息里,“method”这一列被完全移除。
让我们看看是否能做得更好。
这仅仅是剖析报告的开头部分
如果我告诉你,我仅用3行Python代码即可生成以下统计数据,你会感觉如何(如果不算imports语句的话,实际上只需要1行代码即可):
(以上特征列表直接摘自Pandas Profiling GitHub页面)
使用Pandas Profiling包,我们仅用1行代码就可以得到以上数据!在命令行终端只需使用pip即可安装Pandas Profiling包:
pip install pandas_profiling
乍一看,经验丰富的数据分析师可能会嘲笑这是华而不实的,但是,它可以帮助你快速获得你拥有的数据概况:
看到了吗,正如我所说,1行代码搞定!
你看到的第一部分内容是“概览”(请看上图),这部分内容会呈现给你一些非常高级的数据和变量统计,以及像变量高相关性和高偏态性等这类警告。
但是它提供的信息远远不止这些。往下滑动,我们会发现这份输出报告包含多个部分。仅用图片显示这个1行代码的输出都是不大合适的,所以我制作了一张GIF图:
我强烈建议你自己来探索这个软件包里的特色——毕竟,这只有1行代码,而且你会在以后的数据分析中发现这个软件包真的很好用。
import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()
如果你喜欢使用这些易用的东西来改进你的Python工作流,可以看看我的一些最新文章。
这篇文章真的很短小。我自己才刚刚发现Pandas Profiling这个库,觉得可以拿来分享!
原文链接:
领取专属 10元无门槛券
私享最新 技术干货