本文是该系列的第二部分,我从变量中发现了有趣的见解,并发布了相关视频。 本系列第一部分的主要工作是数据收集和数据清理。本文,我们做一些探索性数据分析,这是该项目的一部分, 全部代码 都可以在这里找到。
我意识到,在之前的文章中,我忘记清理这三个列(变量):“ gender_pref
”、“ reason
”和“ job
”。所以,我很快对它们进行了清理。
gender_pref
”,我将它们重新标记为“ male
”、“ female
”、“ both
”和“ it's about music
”,以简化它们。reason
”,我把它们分为“ unique music style
”、“ unique choreography
”、“ attractive idols
”、“ many reasons
”和“ other reason
”。job
”,我按照“ student
”、“ full-time woker
”和“ unemplppyed
”来分类。首先,检查连续变量的描述,包括:“ yr_listened
”、“ daily_music_hr
”、“ daily_MV_hr
”、“ yr_merch_spent
”、“ age
”、“ num_gr_like
”。
连续变量的描述
我们可以看到,歌迷平均年龄为 18 岁,他们已经听了大约三年的流行音乐,每天听流行音乐的时间为 4.3 小时,看视频的时间为 1.95 小时。他们在相应商品上的平均花费为 85 美元。
yr_listed
”变量的分布稍微呈右偏分布。
ys_listened
直方图
“ daily_music_hr
”的直方图
“ daily_MV_hr
” 的直方图
yr_merch_spent
”接近正态分布
“ yr_merch_spent
” 的直方图
age
”呈正态分布
“ age
” 的直方图
num_gr_like
” 呈右偏分布“`num_gr_like” 的直方图
绘制箱形图可以帮助你检测异常值。
我们发现,在“ ye_listened
”和“ yr_merch_spent
”中存在一些异常值。
“ daily_music_hr
”、“ daily_MV_hr
”、“ yr_listened
”和“ yr_merch_spent
”的箱形图
num_gr_like
” 存在很多异常值
“ num_gr_like
” 的箱形图
让我们从“ yr_listened
”和“ num_gr_like
”中移除异常值,然后检查直方图,以查看分布是否有任何变化。
“ yr_listened
”和“ num_gr_like
”的直方图
我们可以清楚地看到,“ yr_listened
”现在呈正态分布,但“ num_gr_like
”却没未呈正态分布。由于只喜欢 1 到 2 组的人过多,所以去掉异常值并不会对分布产生太大的影响。
检查相关性很重要,因为我们想了解哪些变量是相关的。在建模过程中,当自变量高度线性相关时,我们不希望出现多重共线性,这在拟合回归模型时可能会导致问题。
有什么方法可以解决多重共线性问题呢?
检查相关矩阵和相关热图
基于相关矩阵,我们发现连续变量之间并不存在多重共线性,且没有接近于 0 的相关性。
我们可以看到存在这些关系:
现在,让我们来分析分类变量。
为分类变量生成数据帧
让我们绘制条形统计图来表示分类变量。以下是一些发现。
最喜欢的团体条形统计图
韩国流行音乐流行度条形统计图
unique music style
”(独特的音乐风格)。没有多少人仅仅因为偶像的出现就听韩国流行音乐。it's about music
”(音乐)。只喜欢女性团体的人并不多。性别偏好的条形统计图
生活改变的条形统计图
积极影响的条形统计图
按国别的条形统计图
我们还可以使用数据透视表来发现变量之间的一些关系。
听韩国流行音乐和在 YouTube 上观看韩国流行音乐的视频,可以帮助歌迷们减轻压力,结交更多的朋友。
韩国流行音乐与积极效果的关系
参加演唱会和在商品上花钱的关系
年龄与积极影响及生活改变之间的关系
当然,你可以更深入地了解数据科学周期中探索性数据分析的部分。一旦你很好地理解了在模型构建过程中想要做什么,那么就可以到此为止了。
作者介绍:
Jaemin Lee,专攻数据分析与数据科学,数据科学应届毕业生。
原文链接:
领取专属 10元无门槛券
私享最新 技术干货