在本文中,我阐述了数据科学家的各种角色,以及数据科学如何与机器学习,深度学习,人工智能,统计学,物联网,运筹学和应用数学等相关领域进行比较和重叠。 由于数据科学是一门广泛的学科,我首先描述在任何商业环境中可能遇到的不同类型的数据科学家:您甚至可能发现自己是一名数据科学家,而不知道它。 与任何科学学科一样,数据科学家可以借用相关学科的技术,尽管我们已经开发了自己的工具库,特别是技术和算法,以自动方式处理非常大的非结构化数据集,即使没有人工交互,也可以实时执行交易 或者做出预测。
要开始并获得一些历史观点,您可以阅读我在2014年发表的关于9种数据科学家的文章,或者我的文章,其中我将数据科学与16个分析学科进行了比较,也发表于2014年。
在同一时期发布的以下文章仍然有用:
最近(2016年8月)Ajit Jaokar讨论了Type A(Analytics)与B类(Builder)数据科学家:
A型数据科学家可以很好地编码以处理数据,但不一定是专家。 A型数据科学家可能是实验设计,预测,建模,统计推断或统计部门通常教授的其他事项的专家。一般而言,数据科学家的工作产品不是“p值和置信区间”,因为学术统计有时似乎表明(例如,有时对于在制药行业工作的传统统计学家而言)。在谷歌,A型数据科学家被称为统计学家,定量分析师,决策支持工程分析师或数据科学家,可能还有一些。
B型数据科学家:B代表建筑。 B类数据科学家与A类有一些统计背景,但他们也是非常强大的编码员,可能是训练有素的软件工程师。 B类数据科学家主要关注“在生产中”使用数据。他们构建与用户互动的模型,通常提供推荐(产品,您可能知道的人,广告,电影,搜索结果)。来源:点击这里。
我还写了关于业务流程优化的ABCD,其中D代表数据科学,C代表计算机科学,B代表商业科学,A代表分析科学。数据科学可能涉及也可能不涉及编码或数学实践,您可以在我的关于低级别数据科学与高级数据科学的文章中阅读。在创业公司中,数据科学家通常会戴上几个帽子,如执行,数据挖掘,数据工程师或架构师,研究员,统计学家,建模师(如预测建模)或开发人员。
虽然数据科学家通常被描述为在R,Python,SQL,Hadoop和统计数据方面经验丰富的编码器,但这只是冰山一角,受数据营的欢迎,专注于教授数据科学的某些元素。但就像实验室技术人员可以称自己为物理学家一样,真正的物理学家远不止于此,她的专业领域也各不相同:天文学,数学物理学,核物理学(边缘化学),力学,电气工程,信号处理(也是数据科学的一个子领域)等等。关于数据科学家也可以这样说:生物信息学,信息技术,模拟和质量控制,计算金融,流行病学,工业工程,甚至数论都是各种各样的领域。
就我而言,在过去的十年中,我专注于机器对机器和设备到设备的通信,开发系统来自动处理大型数据集,执行自动交易:例如,购买互联网流量或自动生成内容。它意味着开发适用于非结构化数据的算法,它处于AI(人工智能)IoT(物联网)和数据科学的交叉点。这被称为深度数据科学。它是相对无数学的,它涉及相对较少的编码(主要是API),但它是相当数据密集型(包括构建数据系统)并基于专门为此上下文设计的全新统计技术。
在此之前,我实时进行了信用卡欺诈检测。在我的职业生涯早期(大约1990年),我从事图像遥感技术,除了其他方面,以确定卫星图像中的图案(或形状或特征,例如湖泊)和执行图像分割:当时我的研究被标记为计算统计数据,但人们在我家大学隔壁的计算机科学系做同样的事情,称他们研究人工智能。今天,它被称为数据科学或人工智能,子域是信号处理,计算机视觉或物联网。
此外,数据科学家可以在数据科学项目的生命周期,数据收集阶段或数据探索阶段的任何地方找到,一直到统计建模和维护现有系统。
在深入研究数据科学与机器学习之间的联系之前,让我们简要讨论机器学习和深度学习。机器学习是一组算法,它们训练数据集以进行预测或采取行动以优化某些系统。例如,基于历史数据,监督分类算法用于根据贷款目的将潜在客户分类为好的或坏的潜在客户。对于给定任务(例如,监督聚类)所涉及的技术是变化的:朴素贝叶斯,SVM,神经网络,集合,关联规则,决策树,逻辑回归或许多的组合。有关算法的详细列表,请单击此处。有关机器学习问题的列表,请单击此处。
所有这些都是数据科学的一个子集。当这些算法自动化时,如自动驾驶或无驾驶汽车,它被称为AI,更具体地说,深度学习。点击此处查看另一篇文章,将机器学习与深度学习进如果收集的数据来自传感器,并且如果它是通过互联网传输的,那么机器学习或数据科学或深度学习应用于物联网。
有些人对深度学习有不同的定义。他们认为深度学习是具有更深层的神经网络(机器学习技术)。最近在Quora上提出了这个问题,下面是一个更详细的解释(来源:Quora)
机器学习和统计学有什么区别?
本文试图回答这个问题。作者写道,统计数据是机器学习,其中包含预测或估计量的置信区间。我倾向于不同意,因为我建立了工程友好的置信区间,不需要任何数学或统计知识。
机器学习和统计是数据科学的一部分。机器学习中的单词学习意味着算法依赖于一些数据,用作训练集,以微调一些模型或算法参数。这包括许多技术,例如回归,朴素贝叶斯或监督聚类。但并非所有技术都适用于此类别。例如,无监督聚类 - 统计和数据科学技术 - 旨在检测聚类和聚类结构,而无需任何先验知识或训练集来帮助分类算法。需要人来标记发现的聚类。一些技术是混合的,例如半监督分类。一些模式检测或密度估计技术适合此类别。
数据科学不仅仅是机器学习。数据科学中的数据可能来自也可能不来自机器或机械过程(调查数据可以手动收集,临床试验涉及特定类型的小数据),它可能与我刚刚讨论过的学习无关。但主要区别在于数据科学涵盖了整个数据处理范围,而不仅仅是算法或统计方面。特别是,数据科学也包括在内
当然,在许多组织中,数据科学家只关注这一过程的一部分