Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据整合和机器学习深入客户见解

数据整合和机器学习深入客户见解

作者头像
Lethe丶L
发布于 2018-02-01 10:01:48
发布于 2018-02-01 10:01:48
9970
举报

本文精选与新的DZone人工智能指南中。免费获取更有深度的文章,行业统计,以及更多!

在这个大数据世界中,企业的一个主要目标是最大化所有客户数据的价值。在本文中,我将讨论为什么企业需要整合数据来构建更好的模型,以及机器学习如何帮助他们发现这些洞察力。

数据的价值在于洞察力

分析的目标是在数据中“发现模式”。这些模式采用数据中变量之间统计关系的形式。例如,市场营销主管想知道哪些营销手法改善了客户的购买行为。然后,营销人员使用这些模式(统计关系)建立预测模型,帮助他们确定哪个营销手法对客户忠诚度的提升最大。

我们在数据中查找模式的能力受到我们访问的变量数量的限制。所以,当你从单一的数据集分析数据时,你的见解受到数据集中的变量的限制。如果您的数据仅限于客户调查的态度指标,您将无法理解有关客户态度如何影响客户忠诚度行为。您无法将客户的态度与其行为联系起来,将阻止您得出关于客户体验的满意度如何驱动客户的忠诚度这一行为的结论。

数据的两个维度

您可以在两个维度上描述数据集的大小:(1)样本大小(数据集中实体的数量)和(2)变量的数量(每个实体的事实数量)。图1包含不同的数据集的一个很好的例子,可以看到他们沿着这两个尺寸相关的维度如何下降(你可以在这里看到一个交互式图表)。

图1

对于图1左上象限中的数据集,我们知道很多关于少数人的事实。人类基因组就是这类数据集很好的例子。对于右下象限的数据集,我们知道很多人(即美国人口普查)的一些事实。商业中的数据孤岛是这些类型的数据集的好例子。

绘制和理解人类的所有基因,通过集中药物治疗(即药物基因组学)和遗传疾病风险评估(即遗传咨询,基因检测),可以实现医疗保健的深度个性化。人类基因组计划使得医疗保健专业人员能够摆脱“一刀切”的方式,以更加量身定制的方式解决特定患者的医疗保健需求。

整合数据孤岛的需求

在商业上,大多数客户数据都存放在不同的数据库中。尽管每个数据库都包含有关客户的重要信息,但是如果您不将这些数据连接到不同的数据库,则只会看到整个客户难题的一部分。

看看这个由蒂姆·伯纳斯-李的关于开放的数据的TED演讲,说明合并/捣碎不同数据源在一起的价值。只有将不同的数据源整合在一起,才能有新的发现 - 如果只是分析单个数据库,根本不能发现什么。

数据整合
数据整合

孤立的数据集可以防止业务领导者完全理解他们的客户。在这种情况下,一次分析只能在一个数据库内进行,限制可用于描述给定现象的一组信息(即变量)您的分析模型可能被限制(不使用完整的有用预测变量),从而降低模型的预测能力/增加模型的预测误差。本质内容是你不能对你的客户做出最好的预测,因为你没有关于他们的所有必要的信息。

这些不同的客户数据库的整合有助于您的分析团队识别不同客户信息之间的相互关系,包括他们的购买行为,价值观,兴趣,对品牌的态度,与品牌的互动等等。整合有关客户的信息/事实,可以让您了解所有变量如何协同工作(即相互关联),从而更深入地了解客户为何流失,如何建议以及向您购买更多商品。

本质内容是:全面的,整体的,统一的数据集大于其数据库部分的总和。发现新问题的关键是将数据库中的信息连接起来。

机器学习

数据整合后,下一步就是分析整个变量集。但是,随着CRM系统,公共数据(即天气)和库存数据等众多数据库的整合,可以对组合数据集进行可能的分析。例如,在数据库中有100个变量,则需要测试大约5000个独特的关系对,以确定哪些变量彼此相关。当您检查三个或更多变量的独特组合时,测试次数呈指数增长,导致需要进行数百万次测试。

由于这些整合这些数据集非常庞大,无论是关于记录(即客户)数量和变量,数据科学家都无法有效地筛选大量的数据。相反,为了识别关键变量并创建预测模型,数据科学家依靠机器学习的力量在所得的数据中快速准确地发现数据中的模式 - 变量之间的关系。

公司现在可以应用机器学习,而不是依靠单个数据科学家的努力。机器学习使用统计学和数学方法,允许计算机在变量之间找到隐藏的模式(即进行预测),而不需要明确地编程在哪里寻找。机器学习算法在本质上是不断学习的。他们摄取的数据越多,他们越能找到变量之间的联系,以生成有效定义记本业务流程如何工作的算法。

在我们的案例中,我们有兴趣了解顾客忠诚行为背后的驱动因素。根据数学,统计学和概率,算法,能够在变量中找到帮助优化重要组织结果的联系---比如客户忠诚度。然后,这些算法可用于对特定客户或客户群进行预测来提供见解,从而改善营销,销售和服务功能,从而提高业务增长。

本质内容是:应用机器学习发现见解是一种找到变量之间的重要联系的自动化的,有效的方式。

总结

您的数据的价值只有您可以从中提取的信息。这些信息是由数据集中变量之间的关系来表示的。坚持一个单一的数据集(筒仓)作为唯一的数据源限制了你对研究对象的任何现象的理解能力。在商业领域,数据科学实践中发现有用的数据模式依赖于整合数据仓,从而可以访问有关客户的所有变量。反过来,企业可以利用机器学习来快速从集成数据集中获取洞察力,从而使他们能够创建更准确的客户模型。随着机器学习的进步,人们追求(和发现)的关系仅受限于他们的想象力。

本文精选与新的DZone人工智能指南中。免费获取更有深度的文章,行业统计,以及更多!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
详解机器学习的八种方法,专业挖掘大数据
导读:机器学习可以帮助企业做出更好的抉择,但小狗周期往往短暂。本文分析了使用机器学习的八种方法,有助于企业最大限度地提高成功几率。
挖掘大数据
2018/01/09
9040
美国通过机器学习加速基因组医学并改善患者结果
医疗保健和生命科学组织挖掘非结构化数据以获取洞察力,以推动精准医学的进步并加强患者护理 加利福尼亚州帕洛阿尔托,2018年7月2日 - Cloudera,Inc。一个针对云优化的机器学习和分析的现代平台,以及医疗保健分析提供商MetiStream,共同宣布产品以改善患者的治疗效果。 MetiStream宣布推出基于Cloudera机器学习平台的医疗保健和生命科学行业端到端交互式分析平台。 通过结合Cloudera Enterprise和Cloudera Data Science Workbench的机器学习和分析,MetiStream声称其Ember产品可以提供大量手写临床笔记以及基因组数据的见解,为医疗保健组织提供经济有效地改进基因组研究的途径。 加快患者洞察力的时间。
用户1410343
2018/07/26
5200
6个令人惊奇的数据科学应用
作者:DATAFLAIR TEAM 原文链接:https://data-flair.training/blogs/data-science-applications/
陆勤_数据人网
2019/09/17
4K0
6个令人惊奇的数据科学应用
MIT 新系统用机器学习实现机器学习,合成数据较好代替真实数据
【新智元导读】使用真实数据所带来的隐私问题极大地阻碍了数据科学的发展。MIT 的本篇论文描述了一种自动创建合成数据的机器学习系统,这种合成数据与真实用户所产生的数据完全不同,却仍可用于开发和测试数据科学中的算法和模型。研究提出的 Synthetic Data Vault (SDV)可以从真实数据库中构建一个机器学习模型,来创建人造或合成数据。这一算法称为“递归条件参数聚合”(recursive conditional parameter aggregation)。研究显示,使用合成数据和使用真实数据的数据科
新智元
2018/03/27
1.2K0
MIT 新系统用机器学习实现机器学习,合成数据较好代替真实数据
数据科学,机器学习和人工智能有什么区别?
当我介绍自己时,经常会被人问到诸如“机器学习和xx有何区别?”或“你在使用人工智能吗?”等问题。类似问题我已经回复了很多次,按照我的"3原则”我决定写一篇博文: 如果你写了3次相同的代码,请写一个函数; 如果你提供了3次相同问题的建议给他人,请写一篇博文。 - David Robinson(@drob)2017年11月9日 的确,这些领域实际上存在很多重叠的部分,很多人处于在营销宣传的目的把他们混为一谈。但实际它们是不能相互取代的:稍有专业知识的人仅凭直观,也能理解特定领域的工作到底是属于数据科学、
小莹莹
2018/04/18
6720
数据科学,机器学习和人工智能有什么区别?
数据之海 — 探索大数据的无尽可能
在信息爆炸的时代,大数据已经成为当今社会的瑰宝,而数据科学的发展为我们揭开了一个神秘而广阔的世界 —— 数据之海。本文将带领读者踏上一段奇妙的探索之旅,深入了解大数据的定义、应用领域以及对未来的巨大影响。我们将揭示数据之海中隐藏的宝藏,并通过精心设计的实例演示,帮助新手更好地理解和学习数据科学的精髓。
默 语
2024/11/20
1600
对大数据的一些见解
我们经常听到大数据,但很多人仍然不确定它的真实含义。我认为大数据非常强大,所以我想我会写一篇关于大数据的综述性文章,并帮助您了解我们可以使用大数据做什么。
轻吻晴雯
2018/05/14
7530
一文读懂数据科学、机器学习和AI的区别
当我跟别人介绍自己是一名数据科学家时,别人总会问我“数据科学与机器学习之间有什么区别?”或者“那你从事的工作一定是跟人工智能有关吧?”关于这些问题我已经回答过了无数次了,每次解释的答案都是基于我自己总结的“三原则”: 相同的代码如果写了3次,那最好把它写成函数 当相同的建议跟别人说了3次,那最好把这些建议写成一篇博客 — David Robinson(@drob)2017年11月9日 这几个领域之间的确存在着很多重叠的地方,但是其实它们之间并不是可互换的:这些领域的大多数专业人士对如何将特定的工作分类为数据
CSDN技术头条
2018/02/06
1K0
一文读懂数据科学、机器学习和AI的区别
数据分析工作常见的七种错误及规避技巧
商业领域的数据科学家和侦探类似:去探索未知的事物。不过,当他们在这个旅程中冒险的时候,他们很容易落入陷阱。所以要明白,这些错误是如何造成的,以及如何避免。 “错误是发现的入口。”——James Joyce (著名的爱尔兰小说家)。 这在大多数情况下是正确的,但是对于数据科学家而言,犯错误能够帮助他们发现新的数据发展趋势和找到数据的更多模式。说到这儿,有一点很重要:要明白数据科学家有一个非常边缘的错误。数据科学家是经过大量考察后才被录用的,录用成本很高。组织是不能承受和忽视数据科学家不好的数据实践和重复错误
灯塔大数据
2018/04/09
9360
8个带你快速入门的趣味机器学习项目(附数据源、教程)
来源:机械鸡(ID:jixieji2017) 本文长度为3216字,建议阅读6分钟 本文为你介绍八个短时间可以完成的趣味机器学习项目。 抽时间做项目是最好的一种投资方式,在项目中你会享受学习、保持积极性并能获得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。 因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。 以下将具体介绍这八个项目,每个项目都能在一个周末完成,如果你喜欢的话,可以对其进行相关的扩展。
数据派THU
2018/01/30
1.5K0
8个带你快速入门的趣味机器学习项目(附数据源、教程)
机器学习正遭遇“可重复性危机”,或已成“炼金术”?
机器学习以其特有的优势逐渐在科学研究中得到大量应用,然而,其内在的“黑箱”特点也带来了一系列问题,有研究者认为正是机器学习的这种不可解释性导致了当下科学研究的“可重复性危机”——如果科学不可重复,那么我们还能称之为真正的科学吗?与此同时,更有研究者声称机器学习已经成为一种“炼金术”。
AI科技评论
2019/12/03
6130
机器学习正遭遇“可重复性危机”,或已成“炼金术”?
适合入门的8个趣味机器学习项目
谈到机器学习,相信很多除学者都是通过斯坦福大学吴恩达老师的公开课《Machine Learning》开始具体的接触机器学习这个领域,但是学完之后又不知道自己的掌握情况,缺少一些实际的项目操作。对于机器学习的相关竞赛挑战,有些项目的门槛有些高,参加后难以具体的实现,因此造成自己对机器学习的热情逐渐衰减。大部分都经历过这个过程,一直想找一些练手的项目,最典型的练手项目比如手写体识别等,但这类的项目成熟得不能再成熟了,参考别人的网络模型跑一下实验,结果的准确率都快达到100%,学习调参的机会比较少,因此都想找一些
小莹莹
2018/04/18
1.3K0
适合入门的8个趣味机器学习项目
职场 | 如何让你的数据直觉更敏锐
对于有大局意识的人来说,这无疑是一个很好的创业机会和职业选择。要想抓住职业机会,你需要超强的“码力”和深入的专业知识。
大数据文摘
2018/07/31
5190
职场 | 如何让你的数据直觉更敏锐
【业界】机器学习成为主流:如何提高你的竞争优势
随着近年来AI的不断发展,如何在竞争中提高你的优势?首先是大数据—非常大的数据集,可以使用数据分析来揭示模式和趋势,使企业能够改善客户关系和生产效率。然后是快速数据分析—实时应用大数据分析,帮助解决客户关系、安全以及其他问题。现在,随着机器学习,大数据和快速数据分析的概念与AI的结合使用,以避免这些问题和挑战。 那么,什么是机器学习,它如何帮助您的业务?机器学习是AI的一个子集,让计算机“学习”而不需要明确的编程。通过机器学习,计算机可以开发通过经验学习和通过数据集搜索来检测模式和趋势的能力。它不是将这些信
AiTechYun
2018/03/05
7130
【业界】机器学习成为主流:如何提高你的竞争优势
高管人员对大数据现状的看法
本文在新版《DZone大数据指南:数据科学和高级分析》中提供。获取更具洞察力的文章,行业统计数据,以及更多资讯!
用户1433327
2018/06/04
9445
Nature Methods | 针对罕见病的机器学习方法
今天为大家介绍的是来自Casey Greene团队的一篇综述论文。高通量分析方法(如基因组学或成像)加速了基础研究,并使对患者样本的深度分子特征化成为例行程序。这些方法提供了关于参与疾病表型的基因、分子途径和细胞类型的丰富信息。机器学习(ML)可以成为从高维数据集中提取与疾病相关模式的有用工具。然而,根据生物学问题的复杂性,机器学习通常需要许多样本来识别重复出现且具有生物学意义的模式。罕见病在临床案例中天然受限,导致可供研究的样本较少。作者概述了在罕见病中使用机器学习处理小样本集的挑战和新兴解决方案。罕见病的机器学习方法的进展可能对其他具有高维数据但样本较少的应用有所启发。作者建议方法研究社区优先发展罕见病研究的机器学习技术。
DrugAI
2023/09/19
4530
Nature Methods |  针对罕见病的机器学习方法
数据科学通识第三讲:数据科学的应用
目前数据科学已经广泛地应用到了各行各业中。从新兴的互联网产业到传统的工业、农业、能源、房地产、建筑、电子商务、文化、娱乐等多个行业领域,都在运用数据科学技术,改善自身业务的发展状态。
数据酷客
2020/04/22
9640
数据科学通识第三讲:数据科学的应用
多组学数据和临床数据开发|DNAnexus完成2亿美元的H轮融资
2022年3月8日,基于云的生物医学数据分析公司DNAnexus宣布完成一轮2亿美元的融资,以加快其技术的全球应用,将复杂的多组学和临床数据转化为切实的见解和个性化治疗。
智药邦
2022/04/13
3420
多组学数据和临床数据开发|DNAnexus完成2亿美元的H轮融资
大咖分享:企业营销过程中的大数据5大途径!
本文介绍了大数据在市场营销中的应用,包括大数据如何帮助营销人员制定更有效的策略、提高客户满意度、优化定价策略、提高营销效率以及帮助企业更好地了解客户。同时,文章还探讨了大数据在市场营销中的优势和挑战,以及未来的发展趋势。
企鹅号小编
2018/01/05
8930
大咖分享:企业营销过程中的大数据5大途径!
Nvidia与Scripps合作研究AI在基因组学处理和分析中的作用
Scripps Research Translational Institute(SRTI)是一家非营利性研究机构,与Nvidia合作开发基于AI的基因组学处理和分析工具。在今天宣布的合作伙伴关系中,Nvidia数据科学家将与Scripps基因组学专家和生物信息学家共同研究“端到端”的医疗保健问题。
AiTechYun
2018/11/22
7740
推荐阅读
相关推荐
详解机器学习的八种方法,专业挖掘大数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档