温井很久没有来更新,感谢小伙伴幕黑君积极推送文章,希望大家喜欢。
温井消失的理由,说来很不好意思。
一是后来意识到上一篇中提到的后台留言的粉丝,其实是给幕黑君留言的,温井冒领了赞誉,还自作多情地感动,觉得十分尴尬。希望这位粉丝原谅,希望幕黑君近来的几篇更新您能够喜欢,也希望您能继续关注温井和幕黑合作的这个公众号。
二是温井还是在艰难地学新东西。每天的感觉就像站在一个无数分径的迷宫中,其间浓雾弥漫,前不见出口,后无有退路。随时有猛兽出没,而温井只有一把瓶起子做武器;随时有陨石巨坑,而温井只有一个马扎用来攀坑。看一起学的同学,也称自己是小白,没有基础,却可以听完课就做出作业,随时抛出专业术语,与大佬谈笑风生;温井昏天黑地双眼血斑地写作业,却错误连连。温井已经不好意思说什么自己是小白,大概可以说,自己是纳米级的白,宇宙之尘埃(不过在纳米维度中已无白色吧)。
不过,还是要调整心态,即使自己天分不高,基础为零,也要按自己的节奏来慢慢学起。真诚地佩服那些优秀的同学,但是,世界上还是有许多温井这样不优秀的纳米白们在同样、甚至更加努力地学习和成长。
废话说完。下面是温井记录的几个Pandas好用的功能(只是纳米白的笔记而已……浅显错漏实属正常,欢迎留言指正!)。
另外如果有DS同学对作业中的哪道题有疑问,或是对温井的答案有异议,都请留言给我,温井会在周四晚(12/28)前根据大家的需求准备分享内容。
1. value_counts()的normalize参数
这个参数十分好用,当设为True时,数某个array的values返回的不是每个value出现的次数,而是各个value在总数中的占比。
比较:
与
2. Series.str Method
python中对str可以做的许多事,都可以用Series.str.来实现。
举个简单的例子。
下面是python的str method
我们可以对pandas Series使用,只需要在Series后面加上.str来召唤它。
3.groupby() 灵活的by
根据官方文档,by可以是"mapping, function, str, or iterable",这意味着groupby可以有很多灵活的用法。温井也是在摸索中。
之前温井只会简单粗暴地传个dataframe的column用其值作为category,但是慢慢意识到groupby的功能其实十分强大。例如我们有个以天为频率的数据:
那么其实我们可以将数据按年来分组,然后进行我们想要的操作,例如
希望对大家有点点帮助吧。
对于温井这样的普通青年,pandas算是十分友好了,需要的背景知识极少,只不过细节很多,想追求各种fancy功能的话,要学的东西就更是浩如烟海。不过,温井告诉自己的是,我总得从基础的开始,先会用一个简单粗暴的功能,然后慢慢摸索,看别人的例子,一点一点累积。即使我不会使用高级的功能一步就实现想要的结果,那么我先用简单粗暴的功能用10步实现了,也是好的。
前路漫漫,与君共勉吧。
ps:看到这里的DS同学,如果有需要温井解释的地方,请一定在周四晚前留言啊。多谢!
pps:看了下面课程的内容,温井估计不会再像pandas这么对纳米白友好了,但愿自己可以坚持下去,但愿能平和专注地在新一年学到更多有趣的新东西。
喜欢我们请关注
领取专属 10元无门槛券
私享最新 技术干货