大家好,欢迎来到 Crossin的编程教室 !
用Python处理数据大家都不陌生了,属于常规操作,但常规之下也还是暗藏技巧的,本篇就来分享6个好玩高效的操作,帮助大家提高效率。
一、Pandas Profiling
提供数据的一个整体报告,是一个帮助我们理解数据的过程。它可以简单快速地对的数据框数据进行探索性数据分析。
其实,中和函数也可以实现数据探索过程第一步。但它们只提供了对数据非常基本的概述。而中的功能简单通过一行代码就能显示大量信息,同时还能生成交互式报告。
对于给定的数据集,Pandas中的包计算了以下统计信息:
由包计算出的统计信息包括直方图、众数、相关系数、分位数、描述统计量、其他信息包括类型、单一变量值、缺失值等。
安装
用和即可,使用方法很简单,如下:
用法
以titanic数据集来演示的功能。
除了导入库之外只需要一行代码,就能显示数据报告的详细信息,包括必要的图表。
还可以使用以下代码将报告导出到交互式文件中。
二、pretty print
是Python中的内置模块。它能够以格式清晰,可读性强格式打印任意数据结构。一个例子对比下和。
pprint
可以清楚看到的优势之处,数据结构一目了然啊。
三、Python Debugger
交互式调试器也是一个神奇的函数,如果在运行代码单元格时出现报错,可以在新行中键入运行它。这将打开一个交互式调试环境,自动转到报错发生的位置,并且还可以检查程序中分配的变量值并执行操作。要退出调试器,按。比如下面这个例子。
大家应该能看出肯定会报错,因为二者不是一个类型,无法进行运算操作。然后我们敲入。
这时会出现对话框让我们互交式输入命令,比如我们可以像下面这样做。
四、Cufflinks
这个库之前也介绍过,对于数据探索的可视化分析超级好用,低代码量便可生成漂亮的可视化图形。下面举一个例子:
在的基础上做了一进一步的包装,方法统一,参数配置简单。其次它还可以结合的随意灵活地画图。可以把它形容为"pandas like visualization"。
比如下面的。
再比如。
看着这动态图就爱不释手啊,有木有!
五、Pyforest
这是一个能让你偷懒的神器,可以提前在配置文件里写好要导入的三方库,这样每次编辑脚本的时候就省去了开头的一大堆,对于有常用和固定使用库的朋友来说无疑也是提高效率的工具之一。
支持大部分流行的数据科学库,比如,,,,,等等,以及常用的辅助库如,,,等。
此用法对于自己频繁调试很方便,但对于那些频繁跨环境比如和其它人共享脚本调试的时候就不是很好用了,因为别人不一定使用它。
看下面这个操作就明白了:
六、Jupyter notebook的笔记高亮
此方法仅适用于中,当我们想高亮笔记,让笔记变得美观的时候,这个方法非常的香。
笔记的高亮的颜色根据不同情况分为几种,前端的同学一看就明白,区别就是每种颜色代码的类型不一样,其它只要在标签中写内容就好。下面看下用法。
蓝色代表info
黄色代表warning
绿色代表success
红色代表danger
这里有个小提示:如果你直接复制到中可能会报错,因为默认是代码的格式,所以你需要选中单元格按变成可切换模式,然后再按切换成文本模式。这时候再运行就ok了。看下面这个例子。
以上就是6个冷门但却实用的数据分析库。
领取专属 10元无门槛券
私享最新 技术干货