前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据挖掘相关联系著名案例——啤酒与尿布

数据挖掘相关联系著名案例——啤酒与尿布

作者头像
小莹莹
发布于 2018-04-20 09:57:54
发布于 2018-04-20 09:57:54
9.5K0
举报

前言

“啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!

商品相关性分析是购物篮分析中最重要的部分,购物篮分析英文名为market basket analysis(简称MBA,当然这可不是那个可以用来吓人的学位名称)。在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”,可见购物篮 商品相关性算法吸引人的地方,这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。

  购物篮分析的算法很多,比较常用的有A prior/ æ’ p r i ə/算法、FP-tree结构和相应的FP-growth算法等等,上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程,因此在这里我不介绍具体的购物篮分析算法,而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟,在进入20世纪90年代后,很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中,成为了软件产品的组成部分,客户购买了这些软件产品后就等于有了购物篮分析的工具,比如我们正在使用的Clementine。

缘起

  “啤酒与尿布”的故事可以说是营销界的经典段子,在打开Google搜索一下,你会发现很多人都在津津乐道于“啤酒与尿布”,可以说100个人就有100个版本的 “啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初,甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料,我们发现沃尔玛的 “啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的,这应该算是目前发现的最权威报道。

  “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

  在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

“啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

  卖场中“啤酒与尿布”的现象比比皆是,为什么“啤酒与尿布”的故事只产生在沃尔玛的卖场中,而不是其他零售门店?这里有两个原因。

  第一个是沃尔玛先进的计算机技术是“啤酒与尿布”故事产生的强大支持后盾。零售业目前使用的很多新技术都是沃尔玛率先“尝鲜”的,比如沃尔玛最 早在门店尝试计算机记账,最早在门店收款台尝试使用外形丑陋俗称“牛眼”的条码扫描器进行收款,世界上第一个发射私人通信卫星等等。“前人栽树,后人乘凉”,目前运用于门店管理的很多技术手段都是沃尔玛做了“第一个吃螃蟹”的,我们只不过坐享其成而已。由于沃尔玛具备先进的技术手段,“啤酒与尿布”的故事在沃尔玛产生就一点也不奇怪了。

第二个原因是沃尔玛拥有一双锐利的慧眼。沃尔玛是一家极其讲究卖场现场管理的企业,沃尔玛创始人老沃尔顿最大的乐趣就是不停地在卖场巡视,更多地运用自己的双眼而不是数据来发现事实。因此不能忽略的是,没有沃尔玛管理人员的慧眼,“啤酒与尿布”的故事也会淹没在大量的零售数据中。

“啤酒与尿布”并不是新故事

营销界很多人对于“啤酒与尿布”的故事津津乐道,吹捧得如同发现新大陆般!“啤酒与尿布”的故事就是商品交叉销售,这种销售现象几乎和人类历史一样悠久,在古人披着兽皮交换贝壳、粮食、石斧等商品时,他们已经清楚地了解商品交叉销售对于商品交易的重要性,一些聪明的家伙会采取种种措施鼓励客户多交换一些商品(估计是一袋贝壳加一条鱼换一袋大米)。“啤酒与尿布”的故事只是对商品交叉销售现象的一种现代解释,并不是出现“啤酒与尿布”的故事之后,才存在商品交叉销售的现象。从这个意义上讲,沃尔玛并没有发现新大陆,只不过把我们视而不见的现象挖出来,并从中发现了商业价值。沃尔玛的创始人老沃尔顿说,retail is detail (零售就是细节)。

商品销售相关性与关联商品

  研究商品关联关系的方法就是购物篮分析,在购物篮分析方面有两个值得我们学习的榜样,一个是美国的沃尔玛,另一个是日本的7-11便利店。同样是购物篮分析,沃尔玛强调找出商品之间的关联关系,比如啤酒与尿布,而7-11便利店的重点在于找出影响商品销售的所有因素,比如碳酸饮料 与气温的关系等等。换句话说,沃尔玛重点是分析购物篮内商品之间的关联关系,而日本7-11便利店的重点是从购物篮外面找影响商品销售的关联关系。

美式购物篮分析

  以沃尔玛为代表的美食购物篮分析的目标一般是卖场面积巨大,通常都是上万平方米,商品种类繁多,大多在10万种以上,所以要通过购物篮分析找出淹没在不同区域商品之间的关联关系,并将这些关联关系用于商品关联陈列、促销等具体工作中,是很难通过人工完成的。比如啤酒在酒类区域,尿布在婴儿用品区域,两个商品陈列区域相差几十米,甚至可能是“楼上、楼下”的陈列关系,用肉眼很难发现啤酒与尿布存在关联关系的规律。

  我们把找出购物篮中商品之间关系的方法称为“美式购物篮”分析法,这种方法适合应用于类似沃尔玛这样的大卖场,用于找出不同陈列区域商品之间的 关系。英国的Tesco连锁超市、Safeway连锁超市也都是这种购物篮分析的高手。我们这个课程所主要研究的目标也是这种美食购物篮。

日式购物篮分析

  日本这个国家很神奇,虽然身为岛国,但是经济发达。分析日式购物篮确实能够看到日本人在经商方面的巧妙之处。日本的超市以7-11便利店为典型,7-11便利店营业面积都很小,一般只有100~250平方米,商品品种3000~10000种,是典型的“螺蛳壳里做道场”。

  如我们在电影或者泡沫剧里面所见,日本很多门店的经营面积狭小,站在门店里任何一个角落,所有的商品转个身就全看见了——真正的抬头不见低头见,所以找出商品关联关系不是日本 7-11便利店的重点:你就是找出来啤酒与尿布之间有“暗恋”关系,也没用!因为啤酒与尿布本来就在一起。

  当然日本7-11便利店这类相关陈列的故事也是有的,比如荞麦冷面与纳豆、鱼肉香肠与面包、酸奶与盒饭等等,但是毕竟起不到主要作用,日本7-11便利店更关注的是:

  ● 气温由28℃上升到30℃,对碳酸类饮料、凉面的销售量会有什么影响?

  ● 下雨的时候,关东煮的销售量会有什么变化?

  ● 盒饭加酸奶、盒饭加罐装啤酒都是针对什么样的客户群体?他们什么时间到门店买这些商品?

  所以,日本人的重点是分析所有影响商品销售的关联因素,比如天气、温度、时间、事件、客户群体等,这些因素我们称为商品相关性因素。

  日本人对于所有影响商品销售的关联因素研究得非常透彻,因此日本就会有气温-碳酸饮料指数、空调指数、冰激凌指数,因此就不难理解为什么 7-11便利店会设置专门的气象部门,因此更能够理解为什么日本7-11便利店会要求门店每天5次将门店内外的温度、湿度上传回总部,供总部与商品销售进 行对比分析。

  与商品之间的关联关系相比,日本7-11便利店认为这些关联因素更重要。由于这是日本7-11便利店大量采取的方式,我们也称为“日式购物篮” 分析法。

“啤酒和尿布”故事包含什么样的含义

  沃尔玛的“啤酒与尿布”的故事实际上向我们揭示了零售业未来的获利及生存模式。他凸显了零售卖场中一个全新的管理理念,即商品之间是具有关联关系的,发现并利用这些商品之间的关联关系,可以在无法大幅增加门店客户数的前提下,通过增加购物篮中的商品数量达到增加销售额的目的,从而获得更大的经营收益。

启示一:购物篮大于商品

  有在零售业工作经验的朋友都知道,老板考核大家的主要指标是商品销售额,你的工资袋取决于商品的销售额。老板会将商品销售指标下发到个人,每个人都只会关注自己的“一亩三分地”,卖啤酒的只管闷头卖啤酒,卖尿布的只管闷头卖尿布,每个柜台只管自己的商品是否能进入客户手中的购物篮。卖啤酒的不关心购物篮中的尿布,卖尿布的也漠视购物篮中的啤酒,只要别漏了自己柜台的东西就行了,因为漏了自己的商品,这个月的奖金就没了,人人只扫门前雪,长此以往商店的整体效益当然不会好了,效益不好就要裁员,大家都没好果子吃。反观沃尔玛的卖场管理体系中,购物篮是主要的管理对象,而不仅仅是商品。

  为什么沃尔玛会以购物篮为管理重点?沃尔玛认为商品销售量的冲刺只是短期行为,而零售企业的生命力取决于购物篮。一个小小的购物篮体现了客户的真实消费需求和购物行为,每一只购物篮里都蕴藏着太多的客户信息。零售业的宗旨是服务客户,沃尔玛认为商店的管理核心应该是以购物篮为中心的顾客经营模式,商品排名只能体现商品自身的表现,而购物篮可以体现客户的购买行为及消费需求,关注购物篮可以使门店随时掌握客户的消费动向,从而使门店始终与客户保持一致。

启示二:购物篮方面的差距

  购物篮的表现形式就是我们常说的“客单价”,客单价的高低直接反映了零售企业的经营效益。根据AC·尼尔森2006年对国内零售企业的调查发现, 从周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客单价是29元,家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元,好又多、大润发、乐购等台资卖场客单价为50元。到了周末(周六、周日)的差距更大,国内卖场客单价为35元,台资卖场客单价为80元,外资卖场可以达到 149元,这就是我们国内企业在购物篮方面的差距(见图1-1)。

我们知道,销售额=客单价×客流数。在同等客流量的情况下,我们的企业由于客单价低,已经先失一着,销售业绩要比外资企业低200%,比台资企业低60%。此外,销售额低会带来很多问题,比如毛利额低、通道费低、与供应商的话语权降低,甚至会直接影响到企业的生存。因此,要想提高商业企业的销售 业绩,必须改善企业购物篮,全面提升客单价,可以说零售企业的购物篮代表了企业的生存权!

图1-1 各类零售企业客单价(购物篮)金额分布图

  另据有关报道,客户到家乐福卖场的年平均购物频度只有9.8次,但是在快速消费品的市场份额却比年平均客户购物频度高达51次的华润苏果高出 3.63%,家乐福、沃尔玛、易初莲花等外资零售企业仅仅利用客户几次上门购物的机会,就获得了远比国内零售同行高很多的快速消费品市场份额。

  尤其要注意的是,沃尔玛、欧尚等外资零售企业在国内只有区区的十几家门店,居然占据了非常大的市场份额,充分显示了这些外资零售企业在购物篮方面的确有“高招”。

“啤酒与尿布”故事的依据是商品之间的相关性(也称关联性,英文名称为association rule),商品相关性是指商品在卖场中不是孤立的,不同商品在销售中会形成相互影响关系(也称关联关系),比如“啤酒与尿布” 故事中,尿布会影响啤酒的销量。在卖场中商品之间的关联关系比比皆是,比如咖啡的销量会影响到咖啡伴侣、方糖的销售量,牛奶的销量会影响面包的销售量等等。

  所谓事物之间的相关性是指当一个事物变化时,另一个事物也会发生变化。当事物之间的变化是相互抵消的,比如猪肉价格上涨、猪肉销量下降,我们称这种相关性是负相关;当事物之间的变化呈现同一个方向发展时,比如气温上升、冷饮销量也上升,我们称这种相关性是正相关。

  有些事物的相关性显而易见,有些则不是那么明显。美国华尔街股票分析师将女性超短裙的长度与道琼斯股票指数建立了关联,超短裙的长度与股票指数 成反比趋势,据说十分灵验,这就是相关性在生活中的种种体现。

  商店中的关联性更是比比皆是,比如烟酒销售的关联关系:当门店附近有建筑工地时,低档烟、酒的销售就会上升;当附近有高档社区时,中华烟、葡萄酒的销售量就会上升。

  提到商品相关性,很多人认为就是数据分析的事儿,其实对于商品相关性来说,更重要的是客户心理层面的因素,毕竟是人在提着购物篮,而不是猴子。

  客户在购物时的心理行为是产生商品之间关联关系最基本的原因,因此在找到购物篮规律时,必须要从客户消费心理层面解释这些关联关系,否则“啤酒与尿布”会永远停留在啤酒与尿布两个商品身上,而没有任何的推广意义。要想详细了解商品相关性形成的客户心理因素,要进行大量的客户消费行为观察,构建客户购物篮场景,才可使“啤酒与尿布” 的故事发扬光大。 

一张小纸条——商品相关性分析的依据

  要想找到“啤酒与尿布”之间的关联关系,就要对客户手中的购物篮进行计算。

  我们将单个客户一次购买商品的总和(以收银台结账为准)称为一个购物篮。比如我们在超市收银台一次购买了5件商品:啤酒、卫生纸、熟食、果汁饮料、大米,我们就可以认为在这个购物篮中共有5件商品,在收款台交款时这5件商品会集中体现在同一个收款小票中。因此,我们可以说,一个购物篮就是一张收款小票,购物小票就是购物篮分析的一个重要依据,一张购物小票并不简单,这张小纸条实际上包含了3个层面的含义。

  ● 购买商品的客户:“啤酒与尿布”实际上是讲述了特定客户群体(年轻父亲)的消费行为,如果忽略了这个特定的客户群体,“啤酒与尿布”的故事将会毫无意义。

  ● 购物篮中的商品:同时出现在一个购物篮中的啤酒和尿布包含了很多要素,比如这些啤酒与尿布同时出现是否具有规律?啤酒和尿布的价格是多少?是否进行了促 销……

  ● 购物篮的金额信息:购买啤酒和尿布的客户使用了什么样的支付方式?是现金、银行卡、会员储值卡,还是支票等等。

有会员卡与无会员卡的超市购物篮分析

  提到超市的购物篮分析,很多人第一反应就是超市必须要有会员卡,否则这件事儿就干不了,其实没有那么复杂。

  超市有会员卡,通过会员卡分析POS机的消费数据是一件惬意的事情,可以知道这样的事实:老张今天买了2瓶啤酒、一包花生米、2袋豆腐干;大前 天老张买了4瓶啤酒、一包开花豆、4袋豆腐干。

  可是一个1000平方米的超市,像老张这样的客户一天可能有1000~2000个,这样的数据看上一天也不会有什么结果,除了知道老张喜欢喝上一口,喜欢用花生米、豆腐干下下酒,其他的事情都不知道。

  这就引出了一个新的话题:客户群体划分。

  了解一个又一个老张们的喝酒习惯对于门店是没有意义的。门店需要知道的是,门店有多少个老张?又有多少个与老张喝酒习惯不同的老李?将喝啤酒就花生米的老张与喝干白葡萄酒就腰果的老李分开,分成不同的客户群体,对于门店才是有意义的。

  比如门店只要知道,在喝酒的100个客户里,有30个喝啤酒就花生米的老张,10个喝干白葡萄酒就腰果的老李,另外有20个老王是喝黄酒就豆腐干,这就足够了。门店这时就可以知道,啤酒与花生米有关联关系,干白葡萄酒与腰果有关联关系,黄酒与豆腐干有关联关系,这些商品可以考虑一起促销,或者摆放在相近的位置进行陈列。

  这么说大家应该明白了吧,我们分析啤酒与花生米、干白葡萄酒与腰果、黄酒与豆腐干之间的关联关系时,不需要了解这些客户到底是谁,只要知道有这么个群体存在就行了。

  找商品之间关联时有会员卡当然不错,没有会员卡时一样可以分析啤酒与尿布、啤酒与花生米之间的关系,我们只要知道怎么去归类就可以了。不要听某些人讲,没有办法进行购物篮分析,原因是超市没有使用会员卡,这不过是借口而已。

以支持度、置信度、提高度三项指标表现的商品相关性

  很多专业人士认为,一个正规的购物篮分析报表应该采取三个指标数字,才可以准确地衡量商品是否真的存在关联关系:采取“支持度(support)-置信度(confidence)”作为主要商品相关性分析指标,为了强化说明关联关系,往往会运用提高度(lift)指标。

  1. 支持度(support)指标

  在购物篮分析中,支持度指的是多个商品同时出现在同一个购物篮的概率。比如啤酒与尿布同时出现在购物篮中的概率是20%,我们称啤酒与尿布的支 持度是20%,按照国际命名规则表示为:啤酒Implies 尿布=20%。

  “啤酒与尿布”不等于“尿布与啤酒”——相关性的单向性:这不是一句绕口令,这是代表商品之间的相关性具有单向性。我们前面讲过,“啤酒与尿布”代表了一种因果关系。在“啤酒与尿布”的故事中,年轻的父亲去超市的目的是购买尿布,在买到尿布的前提下,才会考虑购买啤酒,因此在购买尿布的父亲中有35%购买了啤酒,不代表购买了啤酒的父亲有35%购买了尿布,因为这是两类不同的消费行为,商品之间的因果关系也会不同,因此这个故事不能反过来讲。

  要看商品之间是否具有相关性,在计算商品之间的支持度时,需要反过来计算进行验证,看看两个商品之间的相关性具有多少的可信度,从而寻找商品之 间的因果关系。由于商品之间关联关系具有单向性,在零售业也会采取这种表示商品关联关系的方式:尿布→啤酒,即尿布与啤酒之间具有关联关系,方向是从尿布到啤酒(反过来不一定对)。

  2. 置信度(confidence)指标

  置信度是对支持度进行衡量的指标,用于衡量支持度的可信度及数据强度。由于这项指标是将商品同时出现在购物篮中的概率进行反复运算,因此这是衡量商品相关性的主要指标。

  3. 商品之间的亲密关系——提高度(Lift,也称兴趣度)指标

  提高度是对支持度、置信度全面衡量的指标,很多时候在衡量商品关联关系时只采用这一个指标,可见这个指标的重要性。当提高度指标大于1时,表明商品之间可能具有真正的关联关系。提高度数据越大,则商品之间的关联意义越大。如果提高度小于1.0时,表明商品之间不可能具有真正的关联关系。

  在某些情况下,提高度会出现负值,此时商品之间很有可能具有相互排斥的关系,体现在购物篮中,就是这些商品从来不会出现在同一个购物篮中。

为了说明问题,我们下面还是以几个具体的案例说明上述问题

  超市中熟食、面包、肉类三种商品之间的关系——三项指标表示的商品相关性

  图1-3是我们对某超市熟食、面包、肉类商品的关联性分析图,相信前一次邓斌同学的演示大家还记忆犹新,我们在这里向大家解释一下如何解读这个关系图。

  我们以第一行数据为例,表示客户购买熟食时,有8.33%的客户会同时购买面包,这个比例很少,因此可以认为买熟食的客户只有很少的比例会购买 面包。

  第二行数据表示在客户购买面包时,会有33.33%的客户同时购买熟食,这样的关联度数字具有商业价值,我们在这里也要注意,熟食与面包的关联 度方向性很强,这是代表了不同的消费行为。

  第三行数据显示购买熟食品的客户在完成购物后,会去买肉类商品。

  在表1-3中我们可以看出,熟食与肉类、肉类与熟食之间具有关联关系。

  肉类和面包与熟食之间、熟食与肉类和面包之间具有关联关系,这些关联关系经得起反复计算,是真正的关联关系,而其他商品之间没有真正有意义的关 联关系。

我们在前面谈到了,商品关联度有好几种表示方式,但是这些方式实在很麻烦!你可能会问,哎呀,有没有办法用一个简单的数据,直截了当地表示商品之间的关联度?当然有了,表示商品关联度的数值可以统称为R值(Relationship的简称),这个R值作为商品之间相关性的数值统称,可以是商品同时出现在购物篮的概 率,也可以是商品之间的提高度。

R值的含义

  R值是衡量商品相关性的重要指标,按照购物篮分析的规律,R值与商品相关性的对应关系定义如图1-2所示。

图1-2 R值与相关性指标对应关系

  对于R值大于0.75,则可以认为具有相当强的相关性,R值在0.25~0.75为较强相关,R值低于0.25的相关为弱相关。

  1. 不要盲目乐观——当商品之间的R值大于0.75时

  在购物篮商品相关性分析时,如果发现商品之间的相关性越强,当然代表商品之间具有很强的关联关系,但是别高兴太早,R值越大越可能得出无意义的分析结果,因为此时揭示的可能是卖场司空见惯的东西。比如三文鱼片与绿芥末经常会出现在一起,或者热狗面包与热狗、卷笔刀与铅笔、方便面与火腿肠经常出现在一起等,这样的分析结论要尽早剔除,以免为业务人员所嘲笑。西方有一句名言:“不要尝试再去发明车轮”,用在这里作为某些大的R值的评价是很恰当的。

  2. 临时因素造成的强关联关系——当商品之间的R值在0.25~0.75之间

  这类R值在购物篮数据分析行业称为“强关联”,很多“强关联”是临时因素“干扰”造成的,有些“干扰因素”没有意义(如下面提到的伪关联),有 些“干扰因素”有意义,比如摆放在同一个堆头区商品很容易同时出现在购物篮中,看上去具有很好的相关性,一旦促销结束、堆头撤销,商品的相关性也会消失,但是这样的临时因素就非常有意义,可以证明促销组织非常成功,因此可以用来评估促销效果。

  3. 隐藏在微弱特征背后的真相——当商品之间的R值在0.25以下

  在购物篮分析行业,将R值低于0.25的相关性称为“弱关联”。在很多弱关联中,蕴藏了很多不为人知的商业规律,比如啤酒与尿布这类商品的关联关系,相关关系特征相当微弱,只有在特定的条件下(比如购买啤酒与尿布的父亲),这些特征才会强化从而被人发现,所以零售专家认为,弱关联最吸引人。在弱 关联中找出商品之间存在的关联关系,对于很多数据分析人员来说是个极大的挑战,因此购物篮分析的主要任务是在弱关联的关系中找出商品之间的相关性。

  4. 同行是冤家——当商品之间的R值为负值

  出现负值代表商品从来不出现在同一购物篮中,商品之间的关系是排斥关系。很多购物篮分析数据不提及R值为负的情况,这是因为R值为负数时,分析 难度更大。一般来说,只有在商品之间的功能相同时,R值为负值才有意义,因此我们称为“同行是冤家”,这时往往代表商品之间是竞争替代关系。

R值背后隐藏的事实

在卖场中存在大量的商品关联关系,比如油条与豆浆、三文鱼与绿芥末、牛奶与面包等等,这些商品之间具有较强的关联关系,也有一些商品之间是竞争 关系(负关联即排斥关联),比如米饭与面食、猪肉与鸡肉、各类面包之间、不同品牌牛奶之间等等。

尾声

其实除了“啤酒与尿布”之外,商品之间还会存在很多奇特的关联现象,只是这个故事给我们打开了通往发现真相的大门。我相信,人们对这个经典的案例的挖掘还会继续下去,借句老话说:经典早就了永恒。我希望,我们今天的演示能够为在Data Mining挖掘出来数据信息之后抓耳挠腮、不知何用的同学提供一点点思路。虽然我们还没涉足社会进行自己的创业,但是我们可以结合我们平时的所见所闻所想,再佐以前人的经验,牛顿说:我们成功,是因为我们站在巨人的肩膀上。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2014-12-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据挖掘与建模
数据挖掘是基于统计学原理,利用机器学习中的算法工具实现价值信息的发现。机器学习是一种实现人工智能的方法,深度学习是实现机器学习的一种技术。
凹谷
2020/04/11
8470
一文让你了解大数据时代,你的真实处境
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。(简单理解就是:提取相关数据,运用相应算法,得出实用结论)
安恒信息
2018/07/24
4200
一文让你了解大数据时代,你的真实处境
数据挖掘十大算法之Apriori算法「建议收藏」
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, CART
全栈程序员站长
2022/08/14
1.1K0
数据挖掘十大算法之Apriori算法「建议收藏」
啤酒加尿布是传奇典范, 还是纯粹以讹传讹?
或许是故事剧情实在够好莱坞、够戏剧化,才能让这个故事传唱多年历久不衰。不过如果认真检视,会发现流传的版本每一个环节都似是而非。这个传奇的故事,本身其实平淡无奇。
IT阅读排行榜
2018/08/16
4810
猪肉炖粉条——一个经典的笑话让你理解数据分析之关联分析
一个经典的笑话让你理解数据分析之关联分析。 一东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别跑
小莹莹
2018/04/20
1.1K0
猪肉炖粉条——一个经典的笑话让你理解数据分析之关联分析
从原理到实现,详解基于朴素ML思想的协同过滤推荐算法
作者在《协同过滤推荐算法》、《矩阵分解推荐算法》这两篇文章中介绍了几种经典的协同过滤推荐算法。我们在本篇文章中会继续介绍三种思路非常简单朴素的协同过滤算法,这几个算法的原理简单,容易理解,也易于工程实现,非常适合我们快速搭建推荐算法原型,并快速上线到真实业务场景中,作为其他更复杂算法的baseline。
AI科技大本营
2019/09/25
6050
从原理到实现,详解基于朴素ML思想的协同过滤推荐算法
大数据案例:啤酒尿布的关联算法怎么来的?
故事背景: 在一家超市中,通过大数据分析发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品的销售数据曲线竟然初期的相似,于是就将尿布与啤酒摆在一起。没想到这一举措居然使尿布和啤酒的销量大幅增
小莹莹
2018/04/23
1.5K0
大数据案例:啤酒尿布的关联算法怎么来的?
手把手教你挖掘数据:怎样创造一个“尿布与啤酒”的都市传奇?
也有很多人对这个“传奇”的真实性表示怀疑,但如今看来,这个传奇已经并不神奇,它只是通过频繁项集进行数据挖掘的一个典型案例而已。
IT阅读排行榜
2019/05/13
6300
手把手教你挖掘数据:怎样创造一个“尿布与啤酒”的都市传奇?
数据挖掘三个小故事
信息化的浪潮给全世界带来的翻天覆地的变化。当你使用信用卡刷卡消费的时候,刷卡交易的信息和购物情况已经进入了银行和商场的数据库;当你拿起手机拨打电话的时候,话单的信息已经进入了电信运营商的数据库;当你在医院挂号就医的时候,门诊和处方的信息已经进入了医院的数据库;当你使用公交卡乘车的时候,购买车票的信息也已经进入了公交公司的数据库。各种的情况都在表明,信息无处不在,而且每时每刻都有大量新的信息在产生,如同上下班高峰期的人流,拥挤而又嘈杂。 故事一、啤酒与尿布 世界零售连锁企业巨头沃尔玛拥有世界上最大的数据仓库系
智能算法
2018/04/02
9930
购物篮分析:绝不只是“啤酒与尿布”!
之前的两篇实用性文章《网购评论是真是假?文本挖掘告诉你》和《大数据助力东北小吃铺满血复活》发表之后,许多读者表示对其中的“购物篮分析”很感兴趣,希望我们能多做介绍。好吧,既然大家都这么有兴致,我就打开了亚马逊的页面,想找几本书推荐一下……
IT阅读排行榜
2018/08/14
1.8K0
购物篮分析:绝不只是“啤酒与尿布”!
数据挖掘实战:关联规则挖掘及Apriori实现购物推荐
糖豆贴心提醒,本文阅读时间4分钟 这篇文章主要介绍三个知识: 1.关联规则挖掘概念及实现过程; 2.Apriori算法挖掘频繁项集; 3.Python实现关联规则挖掘及置信度、支持度计算。 希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学,这些基础知识真的非常重要。如果文章中存在不足或错误的地方,还请海涵~ 一. 关联规则挖掘概念及实现过程 1.关联规则 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之
小小科
2018/05/02
3.2K0
数据挖掘实战:关联规则挖掘及Apriori实现购物推荐
从啤酒与尿布到关联规则
传说二十世纪90年代,美国沃尔玛超市的销售管理人员在分析销售订单时发现,啤酒与尿布这两件看起来毫不关联的商品竟然经常会出现在同一个订单中。后来跟踪调查发现,原来美国的年轻夫妇一般在周五晚上妻子会安排丈夫去超市购买尿布,而丈夫在购买尿布时总会忍不住顺便给自己买上几罐啤酒,这就是为什么啤酒和尿布这两件看起来毫不关联的商品经常会出现在同一个购物篮中。这个故事至今仍是大数据挖掘中津津乐道的经典案例。因为它揭示了数据中两个事物之间的关联性问题,也就是我们今天也重点介绍的——关联规则(分析)。
用户7569543
2020/07/17
1.3K0
Thinking in SQL系列之数据挖掘Apriori关联分析再现啤酒尿布神话
编辑手记:SQL做为一种编程语言,能够满足各类数据处理的需要,关键就在于算法与思维方式。以SQL会友,希望结交更多的数据库、数据分析领域的朋友。 作者简介:牛超 10多年数据库技术积累,长期从事OR
数据和云
2018/03/07
1.5K0
Thinking in SQL系列之数据挖掘Apriori关联分析再现啤酒尿布神话
数据挖掘典型应用:如何做好关联分析
在电商数据运营中,对于客户而言,有两个很重要的指标对于扩大销售规模是很重要的: 第一,提高顾客重复购买次数;第二,提高客户订单中的Basket size(即购物篮件数)。 第二个指标提高Basket size,就是让客户从以前只购买一件产品的转换到现在购买多件产品,从而提高整个购物篮的销售金额,最大限度地实现销售增长。 但是如何挑出那些产品之间有关联销售的机会,从而形成相应的组合优惠套装呢?去过零售商场的人都知道,经常看到不少组合的套装打包在一起优惠销售,例如P&G的产品
机器学习AI算法工程
2018/03/13
1.7K0
数据挖掘典型应用:如何做好关联分析
数据挖掘算法与现实生活中的应用案例
“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”
机器学习AI算法工程
2018/03/12
8.6K0
数据挖掘算法与现实生活中的应用案例
【学习】数据挖掘典型应用:如何做好关联分析?
在电商数据运营中,对于客户而言,有两个很重要的指标对于扩大销售规模是很重要的:第一,提高顾客重复购买次数;第二,提高客户订单中的Basket size(即购物篮件数)。而第二个指标提高Basket size,就是让客户从以前只购买一件产品的转换到现在购买多件产品,从而提高整个购物篮的销售金额,最大限度地实现销售增长。 但是如何挑出那些产品之间有关联销售的机会,从而形成相应的组合优惠套装呢?去过零售商场的人都知道,经常看到不少组合的套装打包在一起优惠销售,例如P&G的产品:飘柔洗发水+玉兰油沐浴露、海飞丝洗发
小莹莹
2018/04/20
7650
【数据挖掘】数据挖掘与生活:算法分类和应用
“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘(Data Mining)的知识,你,或许会有柳暗花明的感觉。 的确,数据挖掘无处不在。它和生活密不可分,就像空气一样,弥漫在你的周围。但是,很多时候,你并不能意识到它。因此,它是陌生的,也是熟悉的。 本文,主要想简单介绍下数据挖掘中的算法,
陆勤_数据人网
2018/02/26
1.8K0
【数据挖掘】数据挖掘与生活:算法分类和应用
机器学习和数据挖掘的联系与区别
小编说:从数据分析的角度来看,数据挖掘与机器学习有很多相似之处,但不同之处也十分明显,例如,数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的,等等。从某种意义上说,机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。
博文视点Broadview
2020/06/12
1K0
机器学习和数据挖掘的联系与区别
数据挖掘与生活:算法分类和应用
“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘(Data Mining)的知识,你,或许会有柳暗花明的感觉。 的确,数据挖掘无处不在。它和生活密不可分,就像空气一样,弥漫在你的周围。但是,很多时候,你并不能意识到它。因此,它是陌生的,也是熟悉的。 本文,主要想简单介绍下数据挖掘中的算法,
小莹莹
2018/04/20
2.6K0
数据挖掘与生活:算法分类和应用
《深度剖析:关联规则挖掘与SQL的奇妙融合》
在数据的浩瀚宇宙中,隐藏着无数有待发掘的秘密,关联规则挖掘算法便是探索这些秘密的有力工具。它不仅在学术领域大放异彩,在电商、金融、医疗等众多行业也发挥着至关重要的作用。本文将深入探讨关联规则挖掘算法的本质,并详细阐述如何借助SQL这一强大的数据处理语言进行关联规则挖掘。
程序员阿伟
2025/04/03
1240
《深度剖析:关联规则挖掘与SQL的奇妙融合》
推荐阅读
相关推荐
数据挖掘与建模
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档