最近很多小伙伴都来找居士咨询关于数据产品经理相关的问题,而市面上也一直缺少这样专门针对数据产品经理的体系性书籍。
在三类数据产品中,用户数据产品是普通用户接触最多也是最容易的一类,因此,我们先从用户数据产品讲起,为大家展现数据产品的独特魅力。
根据数据来源,可将用户数据产品细分为指数型、统计型和生活型。这三类产品的区别见表1-1。
下面针对三类用户数据产品进行具体介绍。
指数型数据产品一般由企业利用自己的数据提炼出相应观点和洞察趋势,提供给用户分析使用,如Google Trends、百度指数、微指数等。这些企业往往自身拥有非常庞大的用户数据,可以据此得出整个社会群体对某个领域的关注度。
指数型数据产品的设计精髓是“比较”,通过比较各种关键词在不同区域和不同时间段内的出现频次,形成热度的高低演化。Google会先将某关键词搜索次数除以与之相关的地域和时间段内的总搜索次数,实现数据标准化,落在0~100的区间内。同时Google会过滤掉由少数人发起的搜索请求、重复搜索和一些特殊字符,以保证指数的呈现质量。可以看到,指数并非全面反映搜索情况的镜子,它更多是一个抽象的描述。这和我们常见的上证指数是类似的概念,上证指数并不能反映全部市场的表现情况,但能比较概括地说明当前市场的走势。
在百度指数里,用户甚至能看出某个搜索词的来源和去向,了解搜索用户的一些兴趣特征。通过这些工具,用户可以一窥行业走势,对市场调研、产品分析也有一定用处。甚至,Google在2009年曾经推出根据搜索词预测流感的案例,识别速度比当时美国的疾控中心更加快速,一时间被引为大数据浪潮的明星例子。虽然后来预测效果有所下降,但始终不失为一个优秀的参考,帮我们了解如何用这些身边触手可及的数据信息更好地认知这个复杂的世界。
统计型与指数型产品相比,最大的差别是数据均来自外部采集,然后经过企业内部整理呈现。这些产品往往可以供用户免费试用,同时有商用版本。目前国内外的统计型产品种类多样、方便易用,既有专注于企业融资信息及创始团队信息的,如企查查、IT桔子、美国的CrunchBase;也有重点分析互联网产品用户数据及下载数据的,如分析下载量和排名数据的七麦数据(原ASO100)、国外的SimilarWeb;还有提供政治、气候、经济等统计分析数据的,如Tradingeconomics网站,它展示了各个国家每年的通货膨胀率、GDP等宏观经济数据。
统计型数据产品的关键是可靠的数据源和数据清洗。一般来讲,数据源都来自网络爬虫或者统计模块(SDK或插件)植入,前者存在一定的法律风险,且有数据容易脏乱的问题;后者获客难度较大,好处是能拿到比较优质的数据。
生活型数据产品是收集用户自身数据并进行一定程度的归类、分析与可视化的产品。数据对于公司来说,作用是通过统计分析来提升效率和节约成本;数据对于个人来说,则可帮助人们量化并提升自己的生活品质。这种产品可以大致分为记账类、运动类、天气类、时间管理类、信息记录类、机器信息类等。这些产品早期只是简单记录和统计,使用起来大多比较烦琐,而随着技术越来越成熟,此类产品慢慢地朝着智能化、便捷化和游戏化三个方向发展。
数据行业早期有BI(Business Intelligence,商业智能)的说法,专为商业服务。随着各项技术的成熟,数据产品在用户端应该有更好的应用前景和表现,做到普惠的DI(Data Intelligence,数据智能)。有时候一个简单的改进,就可以给用户带来极大的便利和价值。
当然,其中也隐含着诸多问题,比如数据安全和数据隐私。从书中详细的例子也可看出,只要简单知道用户的GPS定位,就能推断出他的生活习惯和职业内容等。数据是把“双刃剑”,如何做到便利性与用户隐私之间的平衡,是个非常艰深的命题,希望业内将来可以有比较完善的解决方案。
商用数据产品,即由企业或个人开发,提供给外部企业使用的,具备数据采集、计算、存储、展示和分析等功能的产品。 随着社会分工日益细化,这类产品在国内外逐渐增多,从最早期的Webtrends、Omiture,到后来的Mixpanel、Amplitude,再到最近一两年在国内名声渐起的GrowingIO等,不一而足。
值得一提的是,国外在商用数据产品的分类上已经做得非常细致,在数据链条的每个环节都有大量企业竞争,导致整个行业分布非常碎片化和广泛。而因为国内外的企业市场成熟度等方面的差异,目前国内尚处于行业的起步阶段。
从图1-5及图1-6中可以看到目前商用数据产品的具体分类及领域中的相关产品。它们可分为数据分析师平台(Data Analyst Platforms)、数据科学平台(Data Science Platforms)、机器学习(Machine Learning)产品、BI平台(BI Platforms)、Web/移动端/交易分析(Web/Mobile/Commerce Analytics)、可视化产品(Visualization)、社交分析(Social Analytics)和数据源产品(Data Source,在下图中并未标识)等8个类型。分类角度可以多样,这里提供其中一种以供读者参考。
数据分析师平台定位于数据科学家和分析师,正如Alteryx的CEO乔治·马修对Alteryx的定位一样:
让分析师和数据科学家能够在一个平台上就完成数据输入、建模及数据图形化,而且使用简便,用户界面美观,用户体验比市面上的统计分析软件都要好。数据分析师们要完成这些工作可能需要用到两三个独立的产品,但是用它就可以一站式全部搞定,无须其他任何软件。
这类产品的特点是集合了数据清洗(不包括采集)到数据展示、数据挖掘等近乎全链条流程,数据工作者可通过该类平台一站式解决所有问题。
数据科学平台则只专注于提供各种数据挖掘及算法工具,不像数据分析师平台有专门的人群定位及整合式平台,因而灵活性更强,算法更强大,如SAS和MathWorks。与之对比,机器学习产品更专注于机器学习领域的研究和应用。
BI平台专注于数据清洗、展示和应用环节,定位于通过商业智能的方式,使企业内各个环节提高效率和降低成本。数据来自业务数据库、Excel等线下数据、云服务商等第三方数据接口,不一而足。国外最知名的产品莫过于在2019年被Google以26亿美元收购的Looker公司。图1-7介绍了Looker的工作模式,从连接数据源,到自动生成数据模型,然后改进模型以适应公司独特的指标和商业逻辑,到最后建立基础KPI看板和部门看板,让用户基本做到自给自足。
Web/移动端/交易分析是互联网从业者接触最多的商用数据产品类型,更关注于互联网产品本身的分析,而BI平台虽然也会部分涉及产品分析,但其服务对象一般包含企业各个部门,如提供针对财务部门或者人力资源部门的分析模块,这是前者不会提供的内容。国外比较知名的产品有Google Analytics和Mixpanel等,国内就是早期的百度统计、CNZZ和友盟统计(现已被阿里收购,改名为友盟+),后期的GrowingIO和神策数据等。产品形式多为端到端的分析,从数据采集、分析到展示所有环节都会囊括进去。
可视化产品就很好理解了,见名知义,这类产品都专注于数据的可视化部分。最知名的可视化产品是长期霸占Gartner Data榜单第一名的Tableau,Tableau公司也是目前主打可视化产品的上市公司中市值最高的。它在2019年被Salesforce以157亿美元收购。从行业发展来看,BI平台和可视化产品与客户丰富、资源强大的To B企业合作是个大趋势,如微软拥有Power BI,阿里巴巴有友盟+和数加,Salesforce收购Tableau,谷歌很早就推出了Google Analytics,2019年又收购了Looker。与之对应的是,Domo作为一个曾经备受好评的公司(1.6节会专门介绍),上市前估值曾高达20亿美元,2018年6月于纳斯达克流血上市,2019年12月市值仅剩下6.43亿美元,算是此趋势的一个反面例证。
社交分析产品则主要是利用市面上已有的社交产品数据进行分析并得到公关舆情、社交情绪等方面的结果。数据源产品则是利用应用商店、自有SDK或者运营商数据,进行清洗、挖掘和整合后,单独售卖的商用数据产品,国内的Questmobile即为此类。
商用数据产品作为To B市场一个很大的组成部分,在比较成熟的美国市场发展得如火如荼。近年来这种趋势渐渐蔓延到了中国市场,在2019年伴随着数据中台概念的大热,商用数据产品更是如雨后春笋,比比皆是。不同类型的商用数据产品有其特定的市场和产品特征。我们这里以国内常见的Web/移动端/交易分析类产品和偏产品分析的BI平台为例,来研究下商用数据产品目前面临的挑战和抉择。
首先,企业市场产品不可避免地要在平台型和项目型间游走。要想以低成本扩充用户群体,获得更高价值,必然得走通用型产品的路子。但企业与消费者不同,需求计划性及业务特性较强,通用型的产品往往不能满足其需求。为了满足这些大客户,并在竞争中获胜,企业可能慢慢滑向定制化,变成高科技外包公司。对于数据产品来讲尤其如此,不同行业的公司,甚至一个行业的不同公司,对数据的需求也会千差万别。举例来讲,同样是O2O的餐饮行业,美团外卖和回家吃饭关心的数据类别、分析方式有很大不同。而对于协作类、流程类产品来讲,这种差异性可能没那么大。
其次,数据的价值体现在使用者手里,不在数据产品身上。这点也和其他类企业产品不同。沟通类、协作类和流程类企业产品的价值体现在自身产品上,只要有人用了就有价值。而对于数据产品来讲,更重要的是企业如何根据数据作出行动。这要求企业本身具备浓厚的“用数据说话”的文化,并且能够由上往下推动此事进展,而这不啻又一座大山。如果不能翻越这座大山,数据产品的价值就无法被客户感知,从而导致产品黏性下降,客户流失。
最后,因为数据的安全性和重要性,此类公司价值存在一定的天花板。在未来的时代里,数据的重要性越来越大。马云曾给阿里巴巴定下“五新战略”,数据就是其中之一:新资源。公司但凡成长到一定阶段,具备挖掘数据的技术能力,都会开辟一个新战场,好好挖一挖这种新时代的“石油”。而数据安全性也必然会引起拥有用户隐私的企业(如银行类、航空类公司)前所未有的重视。基于以上两点,大公司势必会选择将数据紧攥在手心,成立团队独自开发。这就限定了此类公司的目标群体只能在中小型企业身上,成为此类型企业最明显的边界。在大型企业中,它们最合适的定位是作为企业数据战略的补充者存在。
在高山地见攀登者,于远洋处有渡航人。尽管上文列出了一些挑战,但这个行业之所以发展旺盛,自有它的迷人之处。
机会一,数据价值的广泛性。相对于企业数据产品价值只局限于一个企业,商用数据产品则天然为更多的企业服务,既能对外输出产品服务,提供商业价值,也能通过更多企业使用来发挥更大的数据价值。数据产品就像中世纪的骑兵,培养成型后纵横沙场、威震四方,但一般国家承担不起,因为既无钱财人马又无机制传承。中小型公司因为人员和精力的问题,并没有机制和能力管理数据,更别谈专业的数据分析。商用数据产品冲进来后填补了这块市场空白,解决用什么(What)和怎么用(How)的问题,以此将数据能力赋予中小企业。这如同提供可供雇佣的骑兵队伍,帮助他们征战沙场取得胜利,而骑兵的价值在这个过程中也被相应地放大了。
机会二,数据需求的抽象性。如果旨在做一个通用的分析平台,那么如何将多样化的数据需求抽象成一个个产品就是关键。甚至可以针对不同行业、不同职位的人提供对应的分析模板,以及有普适性的分析功能。商用数据产品要求产品本身要拥有较高的行业洞察力和理解能力,并将需求进行更高一层的抽象。如果说企业数据产品的抽象是部门级或企业级的,那么商用数据产品的抽象就属于行业级别。
机会三,数据需求的实现程度。可以投入大量精力开发在企业数据产品中投入产出比较小的功能,如更智能、适应性更广的分析产品等。对数据相关的从业人员来讲,它有着另外一个魅力:数据产品也开始注重产品设计和用户体验。虽然这并不是此类产品成功的核心要素,不过也算是告别了企业数据产品“做出来你就得用”的时代,需要考虑数据如何以更便捷、更友好的方式展现给用户。
随着中国市场人口红利的消失及劳动力价格的上升,专注于提高企业效率的To B产品渐渐受到投资行业和众多公司的关注。商用数据产品作为其中一员,亦将在这波浪潮中受益。如上文所提,此行业内挑战与机会并存,对比已经发展成熟的美国市场,中国在优秀的企业服务公司上还是一片空白。期待中国商用数据产品市场迎来丰收的一天。
企业数据产品,由企业自建自用,主要目的是降低员工使用数据的门槛,辅助人员作出决策和提高业务效率。根据内部定位,企业数据产品可再细分为应用型和平台型。
应用型的企业数据产品专注于解决某个具体的业务问题或者部门问题,如客服数据监控系统和建立在集团平台的事业部决策分析系统;而平台型的目的就是为前者提供更好的支撑。
数据界定了产品的性质和边界。企业数据产品关注核心在于降低数据使用门槛,利用数据优化业务,从而提高数据资产价值。因此,我们既需要关注数据在企业员工中的使用情况,改进体验不流畅的部分,也需要关注业务需求,为业务效率服务,最后还需要从数据资产本身出发,思考如何最大化发挥它的价值。
我们来看下转转公司利用企业数据产品提高业务效率的例子。企业内负责数据的部门往往会遇到很多提数需求。此类需求在数据部门看来价值不大,在业务部门看来需求紧迫但流程漫长,效率低下。一个需求提到数据部门后,要先经过需求评审,然后开发排期,最后到校验产出等若干个环节,业务部门可能会因此错过关键的运营时间点。基于此,转转数据中台设计了一个代号为“天枢”的数据产品,将针对用户UserID、Token、订单、商品等分析对象的常见属性和筛选条件组合起来,并横向整合了大数据、搜索、推荐、风控等部门的标签结果。同样的需求,业务方只需要在“天枢”上点点选选,就能完成数据提取和分析,原来需要耗时1-3天的工作,在“天枢”里几分钟内就能完成。“天枢”上线9个月,用户就自主完成超过13 000个分析任务,效率提升显著。在这个例子中,转转通过降低业务方使用数据的门槛,间接提高了他们的运营效率,同时使沉淀于企业内各部门的数据资产得到了更好的发挥和利用。
这里有一个小小的提醒是,数据产品不产生数据,只是数据的搬运工,要和非常底层的业务逻辑保持适当距离。对于日志打印、业务库设计等这些数据“原材料”,我们可以根据经验提出更优的方案,但不适合进行具体的落地和执行。很多数据产品经理在一些业务需求的实现过程中觉得比较低效和别扭,部分原因就是参与业务需求太深,导致在数据聚合层次掺杂了太多业务逻辑,不能实现数据层和业务层的有效隔离。
面向企业内部的定位决定了此类需求具有受众集中、反馈回路短、用户体验要求低、需求繁杂琐碎、层级明显、看重数据安全6个特征。这些特征对数据产品经理来讲,有利有弊。
受众集中很好理解,本身就是面向企业内部的数据产品,相对于To B和To C类型的产品来讲自然用户比较集中。这里的集中有两个概念,一个是地理意义上的集中,一个是业务认知和群体素质的集中。使用者和设计者的沟通在这两个集中概念下变得相对高效。这也决定了后面两个特征:反馈回路短和用户体验要求低。
反馈回路短有需求反馈和价值反馈两个方面。用户数据产品和商用数据产品面向的都是外部的使用群体,其到数据产品经理的反馈回路较长,大部分需要用户调研、上门拜访、产品使用分析等比较间接的手段。而在企业内部,可能就是业务方走到你工位旁直接告诉你。这样的好处在于,能够更直接地了解业务方的需求和产品落地的价值,便于随时对产品进行调整;坏处在于很多时候短回路无法提供一个缓冲期,有很多临时变卦的可能性。因此我们需要扬长避短,把控好短回馈的节奏。
与用户数据产品和商用数据产品性质相同的是,企业数据产品也对用户体验要求较低。一方面因为受众集中,一些操作起来比较麻烦的产品,可以通过举办定期的培训和讲解来解决;另一方面,不存在类似To B和To C产品有竞争的问题,因此体验问题显得不那么重要。当然,即使优先级低,产品依旧需要着力降低数据的使用门槛,比如数据提取、指标分析、结果分享等过程。如果不重视数据方面的使用体验,比如业务方需要费很大劲才能弄清楚两个指标间的差别,甚至错误地使用指标,那么对于数据部门的声誉和数据价值都是很大的伤害。
需求繁杂琐碎,但其核心是需求控制和分级问题。各公司数据部门的定位不同,可能会有差异,但大部分情况下,基本所有数据相关的需求都会落在该部门头上,有些是临时探索,有些是长期分析。如果不先进行分门别类再进行排序筛选,数据产品就可能陷入数据泥沼里,脱不开身。需求的控制和分类,我们会在下面讲搭建企业数据平台型产品时介绍。
企业内用户层级明显,越到高层越能体现数据的价值。我们经常开玩笑说,老板的需求是最重要的。从数据这一方面来看,未必有错。因为“数据价值取决于数据使用者”,高层们看待数据的方式以及据此作出的决策,影响面往往更大,效果更明显。有层级的不仅是用户,更是数据发挥的价值。
最后,市场竞争激烈,数据安全及权限也是头等大事。但凡是企业内的数据中台,都躲不开权限设置的问题。常见的权限模型为RBAC(Role-Based Access Control,基于角色的访问控制)。它抽象出用户、角色、权限三个概念,通过角色控制菜单权限,再为用户赋予相应角色。角色一般根据业务部门和领导层级综合划定。这里需要多提一句的是,数据权限与安全和降低数据使用门槛是不冲突的,合适的划分是关键所在。同时,要尽量简化权限申请和审批流程,提高业务部门的使用效率。
这里企业数据产品分为应用型和平台型两种。应用型的核心是业务敏感度,根据不同的业务需求设计对应的数据产品,如根据风控部门的需求来实时更新对应的风控标签和数据阈值,并且提供对应的监控和分析工具,完成从策略应用到分析落地的闭环。平台型强调的是面向各个业务提供服务,这要求产品具备较高的标准化和抽象化水平。标准化指的是主动出击,定下一些关键的数据资产规范,方便在企业中流通使用,如埋点管理、指标管理和数据库表管理等。抽象化指的是不能只关注于解决一两个具体的需求点,而是关注整个面的抽象和满足,是一个由点及面的过程。
借用GrowingIO CEO Simon 的理念,企业如同人类建立的水资源使用系统,而数据如水。企业数据平台的建设目标,应当是让数据像水资源一样在企业中流动,如图1-8展示的水循环系统一般。这意味着数据要像水一样做到干净无害、随用随取、场景丰富,而这恰好对应着数据准确、及时、易用、全面四个衡量维度。进入人类资源使用系统的水资源需要经过一定的清洗和沉淀,确保“干净无害”,然后根据不同的水用途存储,进入不同的管道,这对应着数据的“准确”。而这里的“随用随取”指在人类社会中,拧开水龙头就能出水,对应着数据的“及时”与“易用”。“场景丰富”则意味着在不同场景里,水会有不同用途,饮用水、清洁用水、灌溉用水各取所需,单单饮用水就又分城市用水、矿泉水、纯净水等不同使用方式,这对应着通过挖掘和丰富数据的使用场景,深化数据本身“全面”的含义。
达成这个目标的企业数据平台,便能通过丰富场景、赋能业务来提升整个企业使用数据的意愿和效率,赋予业务方高效使用和挖掘数据的能力。企业数据平台的主要使用场景如下:辅助企业决策(如市场动向、用户分析和财务分析等)、建立数据流程、优化用户体验、挖掘数据资产等。
建立数据流程,从产品上,是帮助业务方更好地完成使用数据的流程,包括采集存储、展示分析到最后的挖掘落地三个层次;从需求上,即建立一个比较完善的需求分流解决机制,将零散需求、常规需求、业务需求等分类处理完毕,并能将进展和结果及时反馈给需求方。优化用户体验是通过掌握用户数据为用户提供更加顺畅的使用体验、更加精准的营销等。挖掘数据资产包括标准化数据资产,以及不断挖掘回馈原有数据,丰富已有数据维度。
一个完善的企业数据平台应该由技术框架、数据框架和产品框架三部分组成,如图1-9所示。技术框架非本书重点,此处暂不介绍。数据框架主要有数据模型、安全及质量这三个模块。其中,数据模型负责根据业务抽象出对应的领域模型,如电商、社交、游戏等,然后确定对应的主题域划分和维度模型。产品框架上,遵循What-Why-How的划分方式。首先解决采集存储,即“是什么”(What)的问题,将数据采集后清洗存储下来;其次解决“为什么”(Why)的问题,利用分析架构和数据可视化展示,帮助用户寻找原因;最后解决“怎么做”(How)的问题,通过价值的深入挖掘、与业务紧密结合等方式,来确定具体的内容和方向。
对于具体的需求,我们根据其层次不同,通过三种递进的方案来满足。
自定义分析。基本不需要数据和分析部门介入,提供工具就能满足业务需求。面对这种需求,基本有三个解决方案:一是采用开源方案HUE搭建的SQL查询功能,解决非常零碎且无法产品化的临时需求;二是基于埋点的自动分析功能,只要按照数据规范进行的埋点,都可以在页面查询并分析数据;三是采用自定义报表分析界面,支持业务方导入数据表后进行可视化展示。这三种方案解决三种不同层次的需求,可以帮助节省大量人力。
事件分析。需要数据部门进行一定程度的抽象,常见的就是留存/漏斗分析。这类需求的典型特征是寻求事件之间的留存转化规律,抽象后可以落地成对应的数据工具。这些工具有一定的培训成本,适用特定场景。
多维交叉分析。需要数据部门根据业务进行规划和设计对应的分析体系,包含合理的维度和指标。一般来说,这会是一个部门的基准需求,使用频次高,用于每天监控及分析业务异常原因。
我们以智能分析中的一个场景为例。背景是当某一时刻发生数据异常时,业务方希望能够第一时间发现这个异常,并定位背后的原因,进而提高决策效率。目前市面上的常见方案是先通过时间序列预测算法(Hot-Winters)根据过往历史数据,产出对下一时刻数据的预测值,然后与现实值对比,如图1-10所示。一般来讲,这种差值会形成一个类正态分布,当差值落在两个标准差之外的范围时,我们就认为当前数据异常,触发报警。同时,我们根据异常维度分析算法(常见的有基尼系数和决策树等),将该异常进行维度和组合拆解,定位原因所在。这样一来,整个异常的发现和分析过程就变得十分高效。
综上,企业数据产品在设计和开发上有很多独有的特点。首先,企业数据产品承接了来源众多的业务需求,在抽象和管理上难度较大,很容易产生冗余浪费,历史依赖混杂不清,整个BI平台变成数据的垃圾场、泥沼地。其次,数据开发工作长期来看是个细活、脏活、累活,要想长期保证数据安全、质量和规范,需要设计各种机制进行监测,并不断优化。最后,在发挥企业数据资产价值的路上,我们还需要不断丰富场景,设计与开发符合业务场景的数据产品。尽管如此,作为企业管理和挖掘数据资产的抓手,企业数据产品在未来企业竞争中依然显得无比重要。