首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >求职 | 想转行数据科学,收好岗位选择指南与技能图谱分析!

求职 | 想转行数据科学,收好岗位选择指南与技能图谱分析!

作者头像
PP鲁
发布于 2019-12-26 06:29:14
发布于 2019-12-26 06:29:14
9330
举报
文章被收录于专栏:皮皮鲁的AI星球皮皮鲁的AI星球

数据相关的职位一般分为三类:数据分析师、大数据工程师和算法工程师。数据分析师需要丰富的领域知识和敏感的业务思维;大数据工程师为数据分析提供了数据基础和分析工具,需要掌握Spark和Flink等大数据技术,对编程和逻辑思维要求较高;算法工程师的技术要求最高,不仅要懂业务,会大数据,还要熟悉机器学习算法,并且能够将机器学习模型部署到生产环境。当然,因为优质算法工程师稀缺,他们的薪资水平最高。

在大数据和人工智能行业,有众多与数据相关的岗位,名目繁多:数据分析师、数据产品经理、数据挖掘工程师、大数据工程师、数据开发工程师、机器学习工程师、算法工程师、NLP算法工程师、数据科学家等等。很多应届生或准备转行的朋友面对如此多的岗位名称,都会傻傻分不清楚。本文将这些数据相关的职位分为三类:数据分析师、大数据工程师和算法工程师,并从工作内容和技能要求来做一下分析,帮助新入行朋友选择适合自己的岗位。这里我暂且不谈最顶级的数据科学家,这部分人均为名校博士,全世界可能只有几千个,他们可以轻轻松松年薪百万,是整个食物链的最顶层。他们不需要找工作,都是工作在找他们。

2017年 于广西涠洲岛

数据行业金字塔

数据科学金字塔 来源:hackernoon.com

上图的数据金字塔展示了数据科学领域各岗位的大致职能。

  1. 最底层是数据收集部分,主要是原始数据的生成和收集。这部分数据来自各种IOT设备、传感器、手机APP上的用户行为、外部数据、以及用户生成数据(类似抖音用户主动发布的视频)。
  2. 第二层是数据存储部分,一般需要构建数据仓库,生成一系列数据流,将原始数据存储至大数据平台。
  3. 第三层是数据清洗和转化部分,主要对数据进行清洗和预处理,将数据转化为更高层次的数据,为上层数据分析做准备。
  4. 第四层是数据聚合部分,主要做一些基础的数据分析和业务报表,进行一些数据挖掘,并构建机器学习的训练数据。
  5. 第五层是机器学习部分,主要构建机器学习模型,将模型发布到生产系统,进行AB实验。
  6. 最顶层是人工智能部分,顶级的科学家提出新算法或新架构。

绝大多数数据岗位的工作内容一般在第二至第五层,很多岗位的工作内容互相交叉,很难严格区分每个人在做具体哪些事情。无论哪个岗位,都需要衡量候选人以下技能:

  • 领域知识
  • 数学和统计学
  • 逻辑思维
  • 编程开发
  • 大数据
  • 机器学习

数据分析师

我个人认为,数据分析师、数据产品经理(增长黑客)、数据运营以及部分商业智能分析师虽然主要工作各有侧重,但数据相关的核心技能都可以归纳为数据分析。

数据分析师的入行技术门槛相对较低。这里强调技术门槛相对较低,是指“编程开发”、“大数据”和“机器学习”等技能的门槛要求相对较低,甚至可以说,只要会用Excel,就能进行数据分析。但数据分析师的岗位对于领域知识、逻辑思维和统计学的要求并不低,尤其是领域知识和逻辑思维。数据分析师主要在研究和分析该领域的数据,且必须对该领域数据有非常深刻的理解和认识,那领域知识主要指什么呢?以今日头条这样的内容推荐引擎为例,数据分析师所做的事情可能是:

  • 用户画像分析:哪些用户是该APP的重度用户?小镇青年还是都市白领?60岁以上老人是否也会使用?哪部分用户是需要下一步重点发展的潜在用户?
  • 用户行为分析:用户在一天中的哪个时段会频繁打开APP,是上下班通勤途中还是午饭后睡觉前?每次打开时的核心诉求是消磨时间还是获取有价值信息?当用户短时间内切换了一所城市,用户更希望在当时获取哪些资讯?
  • 内容分析:不同类别的用户倾向于阅读哪些类型的文章,国家大事、炒菜养生还是娱乐星座?视频兴起后,该给用户推荐多少视频类内容?
  • 广告分析:哪些新的功能会促进用户点击APP类的广告?广告出现的频次应该如何控制?广告与用户阅读兴趣如何结合?

今日头条内容分析报告

如果换做电商领域,则需要分析师对电商场景有独到的理解。对于不同业务场景来说,所用到的统计学知识并不复杂的,所需要分析的内容不尽相同,但都紧紧围绕着业务。数据分析师的领域知识包括对业务系统的熟悉程度、行业的从业经验、对一些数据和场景的深刻的见解。新入行的数据分析师主要在分析过去发生了什么,产生这些结果的原因是什么;有经验的数据分析师能够从数据中预测未来趋势,为管理层提供前瞻性预见。数据是基础,从数据中发现一些潜在的因果关系、产品优化方向、未来商业机会等洞见性的想法才是数据分析的精华所在。

数据分析进阶

数据分析师每天的工作是处理百万或上亿用户的数据,并且能够在这些数据中挖掘到一些有趣的用户行为模式,给决策层提供前瞻性建议,颇有一种站在上帝视角俯瞰众生的感觉,非常有趣也很有挑战。

数据分析师在专业上没有明确的要求,一般要求候选人有计算机、统计学、电子、通信等背景,实际上这个岗位也接受大量其他专业转行。只要了解业务场景,不同专业背景的人都可以快速转行到数据分析上。数据分析师的这个岗位看似“谁都可以做”,但我个人感觉这个岗位的职能在慢慢被其他岗位所蚕食,反而对从业人员的技能要求越来越高。一方面,现在那些所谓“动动嘴皮子”的岗位已经不能再靠“忽悠”就能胜任了,必须用数据说话,一些岗位如“数据产品经理”、“数据运营”以及“商业智能分析师”都要求相关人员在工作中进行大量的数据驱动的分析,抢占了一部分数据分析师的工作。中小型公司为精简成本,会尽量让一个人去做两个人的事情,会让产品或运营来做轻量型数据分析的工作。另一方面,随着数据量的爆炸增长,数据分析师所使用的工具也在发生快速变化,甚至Python都无法胜任大数据的场景,必须使用Hive等大数据分析工具,更不要提Excel这种只能处理单机数据的软件了。

因此,本节一开始提到的:“相比业务知识,数据分析师岗位对「编程开发」等技术门槛要求相对不高”也只是一个相对概念。这并不意味着数据分析师不需要掌握编程技术。翻看某招聘APP上数据分析师的职位要求,几个核心的技能包括:Python、SQL、数据挖掘等。这其实对没有相关工作经验的应届生或转行人士的技能要求相当高了。在无相关工作经验的情况下,一般人很难接触到大规模的数据量,或者可供分析的业务场景,自学了很久的Python,可能在用人单位眼里只是一些小玩具,难以胜任真正的工作。另外,学术圈喜欢使用R语言,互联网公司一般不使用,从R转到Python对于非计算机专业应届生来说也是一个不小的挑战。

数据分析师技能图谱

对于想为数据分析师、数据产品经理、商业智能分析师的朋友,一个大致的学习路线图为:Python基础 -> 数据库和SQL -> 数据分析和可视化 -> 业务实战。本专栏后续会更新一些Python及数据分析的入门教程。

大数据工程师

数据分析师直接面向一线业务,大数据工程师则在为数据分析提供数据基础、分析工具和软件平台,构建数据分析环境。原始的数据就像麦田里的麦子,需要经过层层工序,才能最终将其转化餐桌上的面包。大数据工程师打通了粮食收割、清理、制粉的整个流程,数据分析师和算法工程师就像是大厨,将面粉加工成面包。

OLAP架构示意图

一部分大数据工程师主要关注构建数据仓库,为公司提供OLAP(Online Analytical Processing,联机分析处理)服务:主要是在Hadoop生态上,构建大数据分析平台。包括提供HDFS、HBase对象存储等数据存储服务;Hive和Spark批处理、Druid和Kylin预处理等数据分析工具;Spark Streaming、Flink等流式计算工具。这部分工程师关注基础设施。

构建高可用数据流涉及众多大数据中间件 来源:www.iguazio.com

还有一部分大数据工程师主要关注ETL(Extract、Tranform、Load):在收集到的基础数据上做提取和转化,生成更高层次的数据。这部分工程师关注业务相关的数据流。因为原始数据一般都是互相独立的,数据与数据之间关联性差,使用这些原始数据,几乎很难快速生成用户画像、广告收入等高层次数据分析结果,更不用提如何进行机器学习建模了。还是以今日头条内容推荐引擎为例,整个推荐引擎要接入不同类型的异构大数据源:每个用户在APP上的使用行为、公司购买的第三方数据(包括用户金融能力数据等)、自媒体产生的海量图文视频内容等等。数据工程师的工作包括:将用户在APP内的点击行为与点击的内容做关联,生成用户兴趣画像;将用户的APP内部数据与第三方数据关联,生成用户的消费能力画像等。

大数据工程师主要对收集过来的底层数据做处理,建立一系列数据管道,将来自不同数据源的原始数据经过层层转化,生成对数据分析和算法建模更有价值的中间数据,一般称这个流程为数据流。小公司限于人力有限,数据流的响应时间有可能是天级或小时级;大公司对数据流的响应要求极高,有可能是分钟级、秒级甚至亚秒级。很多朋友都发现,在某个平台刚刚搜索过某一个内容,下一分钟就能收到相似内容的推荐了,因为大数据工程师提供了这种秒级数据管道。

大数据工程师技能图谱

相比数据分析师,大数据工程师对从业人员的“编程开发”和“大数据”大数据要求比较高,而且数据量越大的公司,对技能要求越高。公司一般要求工程师在Java和Scala语言上,基于Hadoop生态系统,构建实时或批量的数据流。但公司与公司的差异很大,整个技术栈和工作内容与公司架构高度相关。某招聘APP上对大数据开发工程师的技能要求:Java、Scala、Linux、Hadoop、Kafka、Spark、Flink等。面试时一般会重点考察候选人对Google大数据三大论文的理解,即MapReduce、GFS和BigTable,分别对应了开源的Hadoop MapReduce、HDFS和HBase,这三篇论文也被称为驱动大数据的三驾马车。非信息学类专业背景的朋友,未经系统培训,很难转行到这个领域。在校学生应该积极参与校园项目或进入公司实习,以获取大数据开发的实战经验。

算法工程师

人工智能时代最火爆的概念当属机器学习了,机器学习工程师也被推上了风口,曾出现毕业后起薪三五十万,各大公司争相追捧的盛况。机器学习工程师又被称为算法工程师,主要职责是针对业务场景,建立机器学习模型,并将模型部署到生产系统,为公司赢得利润。算法工程师也是一个业务相关的岗位,一个合格的算法工程师必须要熟悉业务,明确工作所要优化的目标,才能有的放矢。不同的业务场景所使用的机器学习模型一般不同,常见的方向有推荐算法、自然语言处理、计算机视觉等。

算法工程师也需要在大数据工程师提供的数据基础上做进一步的数据开发,以构建自己的机器学习数据流。限于公司规模和技术架构,不同公司的算法工程师所做的具体工作可能也有很大差异,但算法工程师的核心工作有两点:

  1. 构建机器学习模型
  2. 将机器学习模型发布到生产系统

机器学习典型流程 来源:towardsdatascience.com

很多朋友看到网上的机器学习例子中,只需要调用一下model.fit()函数就能训练一个模型,认为机器学习非常简单。实际上,一个机器学习流程很长,包括:模型选择、数据预处理、特征工程、样本生成、模型调优以及模型上线。整个工作对工程师的各项技能要求也非常高。

对于模型训练和线上发布,各公司差异也比较大。对于数据量较小的场景,可以直接用“Python + Shell + SQL”的方式构建机器学习数据流,使用scikit-learn或TensorFlow这样的框架。对于数据量大的场景,还是必须依赖大数据处理框架Spark或Flink,并使用分布式训练工具。大公司一般为适配自己的数据量和业务场景,都会有一套自己的模型训练和上线工具,并配有专人来开发和维护这套机器学习框架。因此,在一个大公司里,可能有一部分人负责模型训练,主要是模型调参和特征工程;一部分人负责模型上线,主要保障模型能够提供稳定的在线服务;一部分人负责机器学习框架开发;机器学习并不是万能的,所以还需要一部分人使用人工策略来解决机器算法无法解决的那部分问题。听起来好像所有人的职责都带机器学习几个字,实际做的事情区别很大,所侧重各有不同。

限于人力条件,有些公司的算法工程师需要做类似于大数据工程师的的ETL工作,从原始数据开始生成机器学习训练所需数据,同时要兼任数据分析师,自己分析数据。算法工程师名字听起来高大上,实际上绝大多数时间在做脏活累活。

典型推荐算法

算法工程师最核心技能还是机器学习和统计学,这关乎机器学习模型能够在何种程度上优化目标、带来多大的效果提升。例如一个推荐算法工程师有可能在面试中被问到的机器学习知识包括但不限于:

  • GBDT的原理
  • 如何进行特征选择
  • 如何评估模型效果
  • softmax函数的定义
  • 如何将embedding应用到推荐系统中

综上,算法工程师直接面向业务,因此需要有丰富的领域知识,同时需要强大的统计学和机器学习基础,因为算法工程师要生成训练数据,因此要掌握必要的大数据分析和处理工具。负责模型上线的工程师还要有很强的编程开发能力。可见,算法工程师对各项技能的要求非常高。

算法工程师技能图谱

总结

数据相关的职位分为三类:数据分析师、大数据工程师和算法工程师。数据分析师需要丰富的领域知识和敏感的业务思维;大数据工程师为数据分析提供了数据基础和分析工具,需要掌握Spark和Flink等大数据技术,对编程和逻辑思维要求较高;算法工程师的技术要求最高,不仅要懂业务,会大数据,还要熟悉机器学习算法,并且能够将机器学习模型部署到生产环境。当然,因为优质算法工程师稀缺,他们的薪资水平最高。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 皮皮鲁的AI星球 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
漫谈什么是数据科学家?
近半年,居士看了很多关于数据科学家的模模糊糊的概念,也听了很多所谓数据科学家讲到自己比数据分析怎么怎么厉害,但,细问其和数据分析、数据挖掘有何区别时,又含含糊糊,讲不清楚。
木东居士
2021/07/16
8590
「原创」大数据岗位总结和相关书籍推荐
最近有几个群友问我大数据怎么入门,作为一个零基础大数据入门学习者该看哪些书呢?我结合自己看过的书和了解到的比较好的数据,给大家分享一下。
数据社
2022/04/08
4880
「原创」大数据岗位总结和相关书籍推荐
数据分析师能力思维导图
近几年来,随着人工智能、大数据的兴起。数据分析师、数据挖掘工程师几乎成了高薪职位的代名词,不过很多人并不太清楚数据分析师的岗位职责和能力要求。今天我们就来聊一聊,企业数据分析师、数据挖掘工程师到底需要哪些能力储备?
用户7569543
2021/05/14
8610
数据分析师面试指南
经常被问到一个问题,数据分析师或者数据挖掘工程师面试都问什么问题啊?特别是以下几类人群: 1、想转行做数据分析工作的朋友。 2、之前在比较小的公司做数据分析师,去大公司面试。 3、在校大学生。 在回答这些问题之前,先谈我的一个面试经历,记得之前我在一家小公司做数据分析师的时候,有朋友推荐我去一家大公司去面试数据分析师。当时我也在想,在面试大公司的数据分析师一定会问: 1、你做过哪些模型? 2、用什么工具做的啊? 3、你会或者知道哪些算法啊? 4、数据量有多大? ....... 但是当我去沟通下来的时候,
小莹莹
2018/04/20
1.5K0
数据分析师面试指南
数据分析/数据运营/商业分析
最近有不少同学在后台问我数据分析的职业发展相关,这里先列一个简易大纲。它更多是以我所在的互联网行业展开的。
hankleo
2022/11/29
2.7K0
数据分析/数据运营/商业分析
从底层到应用,那些数据人的必备技能
转自:携程技术中心(微信公号:ctriptech),作者:潘鹏举。 潘鹏举: 携程酒店研发部 BI 经理,负责酒店服务相关的业务建模工作,主要方向是用机器学习帮助业务创造价值。 ---- 前言: 谨以此文献给对数据有热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速调整思路和方向,让自己的职业生涯有更好的发展。 根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。 1、大数据平台 目前很火,数据源头,各种炫酷新技术,搭建Hadoop、Hive、Spark、Kylin、Dr
陆勤_数据人网
2018/02/28
7160
零经验转行数据分析,需要做什么准备?
毕业后我去了一家世界500强企业,从事的是搭建手机通信芯片里面一个小电路的工作。干了一年半,在转行的念头中挣扎了半年,然后裸辞回家,思考人生。
猴子聊数据分析
2019/07/05
9860
从零开始学数据分析,什么程度可以找工作?
基本答一下吧,但是不是很准确,只了解大致情况(杭州),带有某种行业自黑。 一、第一阶段(一般岗位叫数据专员) 基本学会excel(VBA最好学会;会做透视表;熟练用筛选、排序、公式),做好PPT。这样很多传统公司的数据专员已经可以做了 输入标题 二、第二阶段(数据专员~数据分析师) 这一阶段要会SQL,懂业务,加上第一阶段的那些东西。大多数传统公司和互联网小运营、产品团队够用了。 三、第三阶段(数据分析师) 统计学熟练(回归、假设检验、时间序列、简单蒙特卡罗),可视化,PPT和excel一定要溜。这些技术就
CDA数据分析师
2018/02/13
1.5K0
从零开始学数据分析,什么程度可以找工作?
入门 | 如何从零基础转行数据分析
转行,这个话题我觉得许多朋友都非常感兴趣。毕竟工作伴随着我们的一生,也是我们的主要收入来源,任谁都希望能拥有一份高薪又有前景的工作!
CDA数据分析师
2018/12/07
6300
入门 | 如何从零基础转行数据分析
大数据技术学习路线指南
要说当下IT行业什么最火?ABC无出其右。所谓ABC者,AI + Big Data + Cloud也,即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据Big Data这个方向。如果您感觉阅读文字太累,可以点击下面音频!
用户2292346
2019/01/26
7650
大数据技术学习路线指南
掌握8项技能让你顺利受雇于4种逼格最高的数据科学岗位
译者:丑灿 来源:36大数据(www.36dsj.com) 你想找到一份数据科学家的工作吗?如果你有这样的想法的话,那么你就有伴儿了。最近由Thomas Davenport和D.J. Patil在《哈
IT阅读排行榜
2018/08/14
2460
没有工作经验,能应聘「数据分析师」吗?
很多同学对数据分析感兴趣,也和自己在国内做数据分析师的朋友聊过,决定未来从事数据分析方向的工作。
猴子数据分析
2022/05/19
1K0
没有工作经验,能应聘「数据分析师」吗?
如何入门数据分析?
如果你刚开始学习数据分析,那么怎么入门呢?其实各大招聘网站的数据分析职位就是一个很好的参考。那么数据分析师究竟需要哪些技能呢?
数据社
2020/05/25
9120
数据百问系列:数据分析和数据挖掘的区别是什么? (附真实招聘数据对比报告)
数据分析和数据挖掘是数据从业者非常关注的两个岗位。这两个岗位到底有哪些区别?常听人说数据分析偏业务、偏前台,而数据挖掘偏技术,偏后台。所以要早点选定一个方向进行深耕才行?
木东居士
2020/08/11
2.3K0
数据科学家、数据分析师、数据挖掘工程师、数据工程师,你分的清楚吗?
数据科学家(Data scientist)的叫法来自国外,广义上它是对从事数据分析和数据挖掘从业人员的一个泛称,它只是一个头衔,并不是一个职位。狭义上,数据科学家一般是指行业里面的领军人物和顶尖科学人才,如百度前首席数据科学家吴恩达。 在人才市场上我们通常可以看到的是后三个职位(数据分析师、数据挖掘工程师、数据工程师),接下里我们就区分一下这几个职位的相同点和不同点。首先看下企业对这三个职位的要求和描述。 职位和能力 下面是阿里对这3个职位的要求和描述: 数据分析师 岗位描述: 1、独立负责业务数
小莹莹
2018/04/19
2.2K0
数据科学家、数据分析师、数据挖掘工程师、数据工程师,你分的清楚吗?
【数据科学】如何区分大数据下的三大利器:数据科学家,数据工程师与数据分析师。
与其他一些相关工程职位一样,数据科学家的影响力与互联网同进同退。数据工程师和数据分析师与数据科学家携手共同完成这幅“大数据时代”巨作。他们共同努力拟定数据平台要求,基础和高级算法,提供数据分析和展示所需的可视化工具,并将价值创造以易于理解,富于见解的方式反馈给其他部门。 三者之间的定义又是如何界定的呢? 数据科学家是什么样一个存在呢? 通常情况下,数据科学家有数学或物理方面的高等学位。有博士学位的情况并不少见,硕士学位仅是一个前提条件。数据科学家精通统计建模以及如何构建与定制高级数学算法。这既在他们专业范围
陆勤_数据人网
2018/02/26
9110
大数据技能知多少?
云戒说技术:Linux、Python、大数据、Hadoop、Spark、数据分析、数据挖掘、机器学习、深度学习、安全、Mac、Emacs; 云戒说生活:工作、生活、人生、佛法、易学、创业。 天善智能社区博客专栏 https://ask.hellobi.com/blog/oyea9le
IT阅读排行榜
2018/08/15
5700
【数据科学】数据科学领域的职位划分以及职责技能
随着数据科学领域的招聘信息越来越多,范围也越来越广.Datacamp根据最新的数据科学相关招聘信息,全面的了解各个行业之间数据科学领域每个职位角色之间的差异,以及所赋予的工作职责。 最主要分为以下几个
陆勤_数据人网
2018/02/27
9250
【数据科学】数据科学领域的职位划分以及职责技能
数据科学领域的职位划分以及职责技能
随着数据科学领域的招聘信息越来越多,范围也越来越广.Datacamp根据最新的数据科学相关招聘信息,全面的了解各个行业之间数据科学领域每个职位角色之间的差异,以及所赋予的工作职责。 最主要分为以下几个
小莹莹
2018/04/23
1.3K0
数据科学领域的职位划分以及职责技能
数据科学家的自我修养
编者按:谨以此文向著名统计学家、中国人民大学统计学院教授吴喜之教授致敬! 正文: 继云计算之后,大数据已然成为IT行业的热点。《哈佛商业评论》更是宣称“数据科学家”是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。这里我不想重复什么是大数据,什么是数据科学,而是直接从数据科学家这样一个神秘的群体开始让大家对大数据和数据科学有个基本的认识。 认识数据科学家 “数据科学家”是舶来语,翻译自英文“Data scientist”,用来描述“一些能综合运用编程和统计技
小莹莹
2018/04/23
9890
数据科学家的自我修养
推荐阅读
相关推荐
漫谈什么是数据科学家?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档