今天分享的内容为:糗事百科数据获取已经数据分析。
代码
这次除了一级页面外,还爬取了二级页面,获取用户的一些信息,如图所示。
我今天就贴下我的代码:
数据存储到mongodb数据库中,如图:
数据预处理
首先,导入库和数据:
字段类型转化 由于有些字段没有,填充了“不详”或None,所以age,comment字段都是文本类型的,需转化为整形,但有None这些东西没法转,需要把这些内容替换为“0”才能转,以下就是转化代码。(怎么就管不住我这双手呢,填空值可以直接转化,而且填充缺失值也很简单)
填补缺失值 我把一些值都替换成了0,我们通过列的平均值进行填充即可。
玩糗事的人年龄
通过describe看下:
可以看出平均年龄为34,话说不是我们才是段子手的主力军么,我回头看了下数据,有很多人填写的年龄为100以上,为虚假信息,由于数据量少,拉高了平均值,段子手是属于我们的!!!!(我不会告诉你我才17)
谁是段子手
通过排序,找出前十评论和前十好笑的段子的用户,看看谁才是真正的段子手。
段子手性别比例
看下段子手男女比例:
男生比较多,哈哈,污污的女生最可爱!!!
段子词云
词云制作讲过很多次了,放上代码和图。
段子嘛,无非是男生聊女生,女生聊男生。
总结
数据分析来一波,还有用户的详细信息没分析,我们下次分析咯!!
领取专属 10元无门槛券
私享最新 技术干货