数据科学家(Data Scientist)被视为“21世纪最性感的工作”!不论在硅谷还是在中国,企业对于数据科学家的需求都很旺盛,那么如何成为一位数据科学家呢?或者数据科学家都需要哪些技能呢?本文数据侠SangYeon Choi获取了谷歌相关的招聘数据,并通过Shiny App可视化项目,为读者揭晓如何成为一名谷歌的数据科学家。
当然,你可以列出各种各样的原因,但是最重要的原因是要找到数据科学家的工作。学生们学习了各种各样的数据科学技能,并且将其与他们自己领域里的技能相结合。一些值得注意的技能包括:
数据科学家是很有前途的工作,随着企业对于大数据分析需求的增长,各个相关领域的需求也跟着增加。
(图片说明:数据科学家工作需求趋势 永久工vs.合同工)
所以,我们需要掌握哪些技能?我能进入哪些公司?
(图片说明:数据科学家的用户画像)
上图是一个对数据科学家的群体画像。70%是男性,至少懂一门外语,硕士或者博士学位,大家在数据科学家岗位上的平均工作年限是2年,全部的工作年限大多是4年半,有2到4年的使用 R/Python 的工作经验。
那么是否雇主在招聘时候也看重这些背景呢?我决定拿Google的招聘数据作为案例,进行数据分析。
这些数据来自Kaggle的现成数据库,这些都是使用 Selenium包从Google官方招聘网站爬取的信息。
(图片说明:Kaggle上关于谷歌工作技能的数据集)
由于这里只有7个数据维度,有些不够,所有我提炼了新的维度。我使用了简单的文字匹配方法。
最后,我根据获取的数据设计了一个Shiny App的可视化展示。首先展示的是一个职位地图。
我把这些职位信息进行可视化,呈现在一个简单的地图上。作为一家全球公司,Google在全世界不同城市都有招聘。然而,可以看出,大部分还是集中在美国。
以上的数据可视化是关于工作年限、语言以及整个雇佣状况的信息的页面。整体来看,可以看到对于java的需求最高,C语言、Python、Javascrip和SQL分别排名1-5位。
在我们研究的数据科学家岗位方面,我们可以看到对于工作年限一般的人,matlab/Python能力的需求比较高。
另外,教育水平方面,本科生是最常见的。这说明在数据科学领域,实战经验和学科知识是最重要的。
如果你仔细看这组从招聘信息里列出的最低要求信息中提取出的词云,你可以发现很多有趣的点。
职位最低要求强调相关的工作经验,而列在那些“更倾向于招聘”的信息后的,则更多是诸如沟通能力等软实力。这可以理解为作为一个团队的一员所需要的不只是简单的工作经历。
更多细节可以查看我的R Shiny与Github上的数据与代码。
我只是简单地使用R Shiny进行了数据的可视化,如果我也用NLP(自然语言处理)处理一下相关文档,会有更好的结果。
注:本文编译自纽约数据科学院文章How to become a googler?点击“阅读原文”查看。内容仅为作者观点,不代表DT数据侠立场。文中图片部分来自作者。
作者 | SangYeon Choi
题图 | 网络