我们常常苦恼“讲不清楚、听不明白”,千言万语变成了别人眼里的胡言乱语。
根本原因:一维抽象的文字语言很难描述三维的世界, 文字语言译成“具象的事物 ”很难做到“信达雅”。
图表突破了语言文字的局限性,二维图表升级了我们表达的能力,用图可意会“不可言传”之意。
假设你是专业的数据分析师,老板让你给予交易记录制作一个分析报告,你会怎么做呢?
第一步,认识数据
认识数据是我们做分析的第一步,只有认识了数据,我们才能进行:假设-验证,然后得出结论。
1,数据记录包含哪些字段信息:日期、地域(大区及城市)、商品类目、客户、成交及优惠金额。
2,可以分析的视角及度量:通过日期视角看销售量度量数据的大小、变化。通过大区城市视角看销售额度量的分布差异。通过 成交金额和优惠金额 可以描述两者的相关性等。
3,从视角中找出度量的特殊性:比如 某日销售额 最低、某日销售额最大、 某地区白菜销量最大等等。
第二步,从数据到信息,确定要展示的信息
1,展示每月的成交销售额,找到销售额最低的一个月,判断是否有异常。
2,展示202408月 五个大区销售额的占比是多少。
3,展示202408月 华东大区 各类目的销售额分布。
4,展示 202408月 蔬菜水果类目在不同城市客单价分布情况。
5,展示 订单销售额 和 订单优惠金额 的相关性。
第三步,从信息中找到分析维度及度量的关系
1,时间序列关系:月份和销售额
2,内部构成关系:202408月公司整合的销售额 由 五个大区的销售额构成。
3,项目组成关系:202408月华东大区 的销售额 由 各类目的销售额组成。
4,频率分布关系:202408月华东大区客户购买苹果的客单价分布。
5,相关性关系:订单销售额 和 订单优惠金额的相关性。
第四步,使用合适的图表展示维度及度量的关系
1,使用折线图 表达月份和销售额时间序列关系,通过折线图很容易发现202408公司的销售达到了最低点。
我们使用图表标题:“202408公司成交金额达到最低值”,再次强调我们要突出的重要信息。一眼就能快速理解的信息。
2,使用饼图表达销售额在五个大区的构成关系:202408 华东销售额占比最低:9%
3,使用条形图 表达202408月华东大区 的销售额 由 各水果类目的销售额组成。苹果的成就金额垫底。
4,使用直方图表达:客户购买苹果客单价的分布。在 对比上月成交客户数据变化不明显的前提下,客单价的变化能够很好的解释 苹果销售下跌的直接原因,然后继续顺藤摸瓜找到 客单价下跌的根本原因,进而为决策运营提供支持。
5,使用散点图,可以清晰的度量:订单销售额 和 订单优惠金额 的相关性,可以直观的看出 二者存在显著的正相关性。
总结:
由全局了解到逐步带着假设细分数据,用合适的图表验证和表达重要信息。选择使用什么样的图表完全取决于你想要明确表达的信息是什么,并不是数据本身,也不是计量标准。
分析步骤:认识数据、找到数据中的信息、判断分析维度及度量的关系、选择合适的图表表达信息。
图表字体要比报告的字体大4倍,图表应该比普通的表格简洁两倍。信息完全可以用文字来单独表达就不要滥用图表。曲高和寡,使用图表的一条黄金定律是:“越简单越好”
用主要信息(西部地区利润占总公司销售额近半)成为图表的标题,而不图表形式的描述(年龄分布图)。
数据分析-R实战52
数据分析-R实战 · 目录
上一篇多元回归:残差分析与异常值诊断下一篇一个SQL,让人头秃
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。