首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何进阶成为一名数据科学家?

作者:AAAlvin来源:Python数据科学

数据科学家 : 21世纪最性感的工作,可以说是每个数据分析师的最终目标,既然拿到的Stack Overflow调查问卷中含有数据分析师和数据科学家的数据,那本次报告的任务就是横向对比一下数据分析师与数据科学家,让大家对自己的未来的技能树选择能有多一点的数据支持。

假设问题

目前处在或者即将处在数据分析师职位的朋友应该打磨自己的哪项技能?

数据分析师为自己未来的数据科学家之路应该如何扩充自己的技能树?

问题解析

本次报告尝试横向对比数据分析师与数据科学家,将在两个职业的比较中回答假设问题,这样做的好处是使两种职业更饱满的展现在读者面前,因为问题的针对性比较强,对比的过程中也可以很清晰的解答问题,所以本次报告以这样的形式展现出来。

数据分析师与数据科学家

上图中的语言与学历均以占比从高到低排列

薪资

首先拿到这个数据,自然要从大家最关心的工资说起:

首先可以看出来,两个职业在接触编程人员中都有中等的工资水平,数据科学家更是挤进了前十,总的来说是相当不错的薪资水平了。

更细致的来看数据分析师与数据科学家的工资情况,科学家工资不管是均值还是中位数都稳超分析师,且高工资处分析师的离散程度远远大于科学家,也就是说数据科学家在高工资处的分布集中度更高。

性别

对比前一章报告:Stack Overflow 用户画像分析(https://github.com/AAAlvin/Project_Folder/),不难看出,这两个职业的女性从业率都超过了编程行业的女性(4.8%)均值,且数据科学家甚至达到了两倍的样子,可以说是对女性非常友好的编程相关职业了,其中的原因有可能是很多专业是学习数学或者统计的朋友跨行业自学编程来到数据行业。

从不同性别的薪资来看,首先对比其他职业可以看出这两个行业男女工资基本上已经持平,跟其他行业中男性比女性工资高很多的情况形成强烈对比;随后从两个职业的对比中可以看出,从数据分析师进阶到数据科学家,两个职业女性的工资上涨幅度远超男性,女性工资均值和中位数上涨了50%和70%,而男性上涨只有45%和16%。

编程语言

输出了数据分析师与数据科学家使用语言蝴蝶图,将目前比较火的R和Python标亮显示,从中可以得出的东西还是非常多的:

首先看数据分析师这边,基本都是使用SQL和R,其次是使用EXCEL中的VBA,而python使用的情况只有不到6%,这和我现在了解到的数据分析师的情况大致相符,基本是多用SQL做数据提取工作,小数据使用EXCEL,数据量比较大的才考虑使用R或python,目前从数据看来,使用R的占了比较大的比重。

再从数据科学家这边看,基本上使用python的比例激增到40%,大家应当熟知Python是机器学习的利器,多看中预测结果的准确性,而R多用作统计推断的语言,所以从语言使用占比来说,在科学家这边,机器学习一定是一个绕不开的技能,不然Python激增这么多很难有合理的解释。

不难看出的还有一点就是,SQL在科学家中基本不在使用了,而VBA却仍有不小的比例,看来简单的取数据的工作要么科学家已经交给分析师来做,或者自己动手使用python爬虫,而小量的数据仍有可能使用VBA进行前期分析。

目前来看处在分析师职位的朋友应当把更多的精力放在SQL和R上,然后尽力不要丢掉EXCEL,毕竟这个是基础技能而且还非常耐用,然后在为数据科学家做准备的时候,Python是一定要深入学习的语言,同时深刻了解业务和机器学习,这些应该是从该数据集中展现出来的方向。

学历

学历柱状图最明显的一点莫过于数据科学家的博士学位明显高于数据分析师和其他职业,可以说是门槛超高的一个职业了,大部分的科学家都接受了相当好的教育,本科以上的学历高达91%。

数据分析师的学历基本属于平均偏上的水平,可以看到在硕士学位处35%的占比也很高的。

综上数据分析师的学历门槛比较高,而科学家的门槛更高,分析师准备转行科学家的时候,磨练自己技术的同时还需要加强自己的专业知识也就是提升学历,边上班研究业务知识,边申请在职研究生或者博士课程也是可以选在的方向。

编程时间相关

从两个行业在不同编程年龄的柱状图来看,编程时间在6年以下的以数据分析师居多,而接触编程语言超过6年后,当熟练掌握了算法和业务之后转行科学家的比例不断上升,看来6年之内分析师们是需要为自己的数据科学家做好技能规划。

从上班使用电脑时间来看,基本两者相差不大,都属于业界平均水平,只不过在科学家在5-8小时的时候稍微多一点,超过12小时的时候稍微少一点。

总结与结论

数据分析师对自己目前的规划与未来的计划:

目前扎实掌握SQL与VBA,掌握业务相关知识与R语言,尝试对数据库有更多的了解;

技能树深化Python的学习,机器学习或深度学习需要提上日程;

有条件的情况下尝试在职研究生,学习统计学知识,掌握更全面、系统的理论知识;

———— / END / ————

上海CPDA第44期

10月27日开班

快来报名吧

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181025B196UU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券