Numpy 和 Pandas 都是Python 语言的扩展包,目的是为了方便从事数据科学的工作者快速地进行大量数据计算和数据处理。Numpy支持多维数组与矩阵运算,针对数组运算提供了大量的数学函数库。而 Pandas 则提供了快速、灵活并且更富有表达能力的数据结构,这些数据结构让我们能够更加容易和直观地处理关系型和带标签的数据。
Numpy 和 Pandas 这两个包(尤其是Pandas)的学习能给初学者提供一个短时间内上手处理一些数据分析项目的机会。通过练习Pandas自带的数据清洗、计算、绘图等功能来处理数据,尤其是其可视化功能,使得初学者能够体会到数据科学的魅力,激发学习的热情。
学习Pandas最好的方法是做一些练习项目,比如在 github 上就有一些很好的练习项目,这里推荐一个我做过的练习项目,供大家参考,https://github.com/guipsamora/pandas_exercises。这些练习,最好在jupyter notebook上练习。本公众号之前也有文章介绍过jupyter notebook的安装与使用方法。
最后,祝愿大家能够很快找到入门数据科学的钥匙,尽早体会到大数据的魅力所在。
领取专属 10元无门槛券
私享最新 技术干货