Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >想做“开放数据”这门大生意?先让数据“关联”起来

想做“开放数据”这门大生意?先让数据“关联”起来

作者头像
DT数据侠
发布于 2018-08-08 08:16:31
发布于 2018-08-08 08:16:31
6490
举报
文章被收录于专栏:DT数据侠DT数据侠

随着“开放数据”这项运动在中国的持续进行,各类开放的数据逐渐丰富起来。如何解决其中的数据孤岛难题?又如何最大化挖掘开放数据的商业价值?10月30日的线上数据侠实验室中,大数据交易平台“发源地大数据”创始人兼CEO马建军为我们分享了其在“开放数据商业化”方面的实践和观点,本文为其现场演讲实录。

▍大数据应用需求大,但痛点是获取成本高

从理论上来说,大数据可以应用在各行各业。特别是最近几年,人工智能火热的形势下,数据源作为大数据的基础设施,其价值已经体现得淋漓尽致。应当说,没有数据就没有人工智能,也没有机器学习、深度挖掘等,包括数据层面的应用。

我们认为,中小企业对数据的需求场景一般包括三大块,第一是将数据用于数据分析、市场调研等;第二是很多项目在早期启动或者运营过程中需要有数据的支撑,即启动/运营数据;第三是企业客户数据挖掘、精准营销,基于数据做一些用户画像等研究,供企业进行营销。

大数据的市场空间,大家都比较清楚了。差不多从2012、2013年,国内的大数据发展开始慢慢落地,到了2015年,依靠大数据做精准营销已经成了很明显的趋势。而且有一些基于开放数据的创业公司比如企查查、天眼查等也已经落地。

不过,尽管如此,我们还是看到,最近十多年来,数据分析在国内一直不温不火,短期内可能也很难落地。这和国外的情况显然不同。

我们今天的主题是关于开放数据,其获取的渠道可以是从QQ群、淘宝等进行交易;也可以通过传统的API模式,按调用次数购买;当然,也可以自行采集。第一种方式的成本高效率低,而且因为是交易,数据可能都是些历史数据。第二种API方式,虽然在前几年发展不错,但是接下来的发展并不让人看好,因为其成本高。而如果是由公司自行采集,往往是传统的单机方式,数据的利用和应用层面往往也有很多问题。

那么如何来解决这些痛点呢?

▍数据从开放共享到直接交易
要解决用户碰到的数据获取中的痛点,一个解决方法是推动数据的交易。在以前并没有数据交易的概念,从2015年贵阳成立大数据交易所这一个时间节点开始才有。

所谓数据交易,其主要目的是推动数据的开放共享、直接交易。在此之前,当然还要先制定一个规则:什么样的数据可以开放?如何开放?又如何去共享再到交易?

下面这张图是基于我们多年经验总结出来的数据流通交易的架构:

首先,开放数据要得到应用,需要有一个初加工的过程,然后再做清洗等深度加工。而这中间必须要有的一个环节是数据的处理。我们把这个过程形容为“从小麦加工成面粉、再加工成包子、馒头”,这才叫做应用。

我们认为,不管是开放的数据还是非开放的数据,从数据源头到终端的应用,用户都有加工的需求,有了这个环节后才能拿来做交易变现,实现更好的流通。这个过程其实可以称为“数据源”的交易。

数据源交易不同于我们传统的数据包。有一个概念叫做“块数据”,这种数据其实相对还是比较孤立的,还是一个个“数据孤岛”。而数据源交易则是一个活的交易。因为它其实就是一个数据产品,能帮助用户解决很多问题,比如数据的动态交付、数据安全、版权隐私等等,我们称之为“三元素”——先授权、后脱敏、最后再确权的一系列过程。

在将一个个数据孤岛打破、推动数据融会贯通的过程中,数据加工起到了很大的作用。如果没有这个环节,直接拿数据包来交易,其实并没有从根本上解决数据价值最大化的问题。下图是对前面架构的补充,这三个层级中,数据加工的重要性不言而喻。

▍开放数据商业化的关键——数据融合

接着我们再来看看具体的案例,我们将开放数据进行了“产品化”,并按照数据的应用类型做了分类。下图是我们目前能提供的各种数据类型:

上面这些数据,一般也是比较有价值、用户最为关注的数据。但值得一提的是,很多在大家看来可能一点价值没有的数据,其实也有一定的需求。什么原因呢?因为随着大数据的发展和开放数据的应用,尤其是数据融合的观念,数据整合越发重要。

目前要想让数据变现,就得看那些“长尾数据”,要有海量数据的观念,将一个个海量的数据孤岛先进行整合再进行融合管理。就好比大众点评,早期肯定也做了很多数据采集之类的“脏活累活”,但一旦建立了数据的索引,那么你就会发现其价值非常大。

大多数的用户对数据的应用需求其实都不是某一个数据源,而是多样化的。我们还可以看看下面这张图:

从上面这些应用场景来看,大多数的用户的需求都是基于某一个独立的数据源,然后再基于海量数据源或者多个数据整合使用。

对于开放数据来说,它的体量本身是非常大的。至于各种企业、机构的内部数据,其对外公开的难度更大,使用会受到各种层面的影响。未来,开放数据的体量一定是远远大于内部数据。从这个角度看,开放数据的应用空间是不可想象的。这种数据的矿山就像是金矿,如果不去开挖,那么可能就是一座座的数据孤岛,没有任何价值。

为了最大化数据价值,数据的融合贯通非常重要。我们可以拿“企查查”这家公司作为例子。在早期,这种APP可能只能够查询企业的工商信息,但这样并没有大的发展空间,但你现在看到在这类APP上能够查询到企业的多维度信息,比如股权、股东、知识产权、商标专利、相关的报告等等。有了这种多维的信息,将多维的数据打通,对于C端用户来说其价值就非常大了。

所以,我想说的是,不管是开放数据还是非开放数据。要让其发挥最大的价值就要做数据之间的关联。这样的关联模型一旦建好之后,其在未来的应用将非常大。

注:以上内容根据马建军在数据侠线上实验室的演讲实录整理,有部分删节。图片来自其现场PPT,已经本人审阅。本文仅为作者观点,不代表DT财经立场。

作者 | 马建军

编辑 | 胡世龙 : hushilong@dtcj.com

▍数据侠门派

本文数据侠马建军,大数据交易平台“发源地大数据”创始人兼CEO,硕士,10年大数据行业研发管理经验,曾创办多家企业。国内首款SaaS采集引擎的核心开发者;曾供职于腾讯,负责过腾讯首个游戏大数据预测引擎的研发。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DT数据侠 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据猿对话丨聚合数据郭劼:数据只有在流通过程中被充分应用,价值才能最大化
作数据流通的中转站,聚合数据以API形式为互联网和移动互联网(企业和个人)开发人员提供了最好、最便捷的服务。有了聚合数据,开发者再也不用担心对各种类型数据的采集和程序编写工作了。 上图为:聚合数据技术
数据猿
2018/04/19
8610
数据猿对话丨聚合数据郭劼:数据只有在流通过程中被充分应用,价值才能最大化
数据的六大经济特性
节选自国务院发展研究中心企业研究所《数字平台的发展与治理》(中国发展出版社,2023年),有删减修改。
小腾资讯君
2024/01/08
1980
数据的六大经济特性
中国已到数字化革命阶段-其他城市还在迷茫,苏州已成为大数据商业创新发源地城市
中国已到数字化革命阶段-苏州太牛!其他城市还在迷茫时候,苏州已成为大数据商业创新发源地城市。
孔雀
2019/08/27
7370
中国已到数字化革命阶段-其他城市还在迷茫,苏州已成为大数据商业创新发源地城市
消除数据孤岛,摆脱企业大数据困境
在2013年大数据全球技术峰会上电子科技大学教授周涛教授提出了大数据发展的三个阶段。
IT阅读排行榜
2018/08/13
1.2K0
为什么数据基础设施如此重要,这篇白皮书讲透了!
某家商业银行为准备国庆长假计划策划大型营销活动,以此来带动老用户消费和挖掘潜客。通常,业务部门通常会与电商、OTA、出行、O2O等平台,甚至保险公司、线下餐饮、影院、购物中心等进行权益合作,为了让营销效果最优,数据分析部门和技术部门需要与业务部门反复沟通需求,去对数据做采集、处理、清洗、打通与匹配,最后通过聚类和统计分析,将客户群进行划分,并给业务部门出相应的数据分析报告,但折腾一个月,业务部门最后发现报告内容可执行性并不强,营销效果差强人意。
大数据在线
2019/12/11
5390
坐拥海量数据的运营商大佬,如何走出商业变现之路?
10月26日,第一财经旗下DT财经发起的数据社群——数据侠联手复旦大学大数据研究院人文社科数据研究所,共同举办了以“大数据商业应用解析与未来展望”为主题的公开课。课上,数据侠联盟成员、中国电信大数据产品经理、2016年SODA大赛(上海开放数据创新应用大赛)冠军汪科科,以中国电信的海量数据为例,向复旦大学的同学们与数据侠社群的数据爱好者们介绍了大数据商业化的方法论。
DT数据侠
2018/12/06
1.3K0
坐拥海量数据的运营商大佬,如何走出商业变现之路?
腾讯隐私计算白皮书发布,区块链为重要组成
白皮书主要分为五个部分。第一部分阐述了隐私计算的发展背景、基本概念和主要作用。第二部分主要分析了隐私计算的技术体系,重点对联邦学习、可信计算、安全多方计算以及区块链和隐私计算融合发展进行了探讨。第三部分主要描述了隐私计算当前应用的重点行业和场景。第四部分重点探讨了在法律视角下隐私计算在数据安全合规方面的作用和痛点。第五部分重点从技术、应用、法律等视角对隐私计算的发展进行了展望。
bengbengsu
2022/04/26
1.1K0
腾讯隐私计算白皮书发布,区块链为重要组成
关于房价,房产大数据能告诉你真相吗?
如果买卖或者租过房,你一定会对市场上五花八门的房产交易App有了解。市面上还有另一类和房产买卖有关的App,它们本身也许不是交易平台,却可以提供基于大数据的购房辅助指导,房产领域里什么数据最有价值?如何才能科学地预测房价?9月21日,房产服务App“兔博士”首席战略科研项目负责人谢明,在数据侠实验室的线上活动中分享了兔博士的实践干货,本文是其演讲实录。
DT数据侠
2018/08/08
5850
关于房价,房产大数据能告诉你真相吗?
数据湖泊里游一游?智能工厂里逛一逛?
在中国智能制造2025的变革中,数据湖不会是数据仓库和BI平台的终结者,但数据湖一定是未来企业数据技术(DT)的核心纽带,成为引导中国制造2025变革的数字宠儿。 实现工业4.0或中国制造2025的前
钱塘数据
2018/02/28
9470
数据湖泊里游一游?智能工厂里逛一逛?
9个亿的5位数QQ号用户中出现了神秘人物 三分钟挖掘出QQ大数据
几天前,一个朋友来聊天,表示很羡慕我的6位QQ号,我说有啥好羡慕的,还有那么多5位号呢! 他感叹道:“一个5位号现在值好几万,早知道当初注册个百八十个的话,现在不就发财了… ”! 自我介绍下。传说中的“网络抓取铁手追命”,就是本人了。 主要擅长各种互联网数据抓取挖掘,通晓各种数据源采集规则,互联网江湖人士也,现和你分享一下如何一夜间挖价值9个亿的5位数QQ号用户! 9万条5位数QQ用户的详细数据 QQ号,昵称,空间名称,性别,年龄,生日,所在国家,省份,城市,感情状况,职业(其中QQ空间公开的一共有232
灯塔大数据
2018/04/10
1.5K0
9个亿的5位数QQ号用户中出现了神秘人物 三分钟挖掘出QQ大数据
数据价值如何在企业实战中落地(33PPT)
本文整理自时趣首席科学家王绪刚博士的演讲 回复“时趣”可下载完整版PPT 我今天跟大家分享的,是如何通过数据的技术来去发现数据背后的价值。这是我进入时趣这么多年以来,与著名的合作伙伴一起进行数据方面的
大数据文摘
2018/05/21
5350
每日互动“D-M-P”三步走, 打造数据中台-每日治数平台,助力行业数字化升级
在大数据、人工智能技术迅猛发展和企业数字化转型加速的双重驱动下,“数据中台”脱颖而出,成为行业焦点,驱动数据智能新时代的到来。如今,很多企业正在探索和建设数据中台,希望通过中台更好地服务前台业务的规模化创新。企业建设数据中台不仅需要丰富的数据源作为基础,还需要强大的数据治理和数据运用能力做依托。尤其是成熟的方法论和专业的数据中台建设方案,对于数据中台的落地至关重要。
个推
2021/05/24
3570
实时数仓架构的演进与对比
1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。
大数据学习与分享
2023/02/26
1.2K0
实时数仓架构的演进与对比
【BDTC 2015】互联网大数据分论坛:滴滴、百度、京东等大数据实践
2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。 12日下午的互联网大数据分论坛,滴滴机器学习研究院研发总监刘威、百度主任架构师、机器翻译技术负责人何中军、京东商城大数据研发部负责人刘彦伟、中国人民大学
CSDN技术头条
2018/02/11
9050
【BDTC 2015】互联网大数据分论坛:滴滴、百度、京东等大数据实践
DT时代如何挖掘商业数据的公共价值
目前,各领域互联网平台把很多老百姓生活中吃穿住行的数据都存储下来,但如何挖掘商业数据的公共价值?又如何保证数据安全与隐私?是大数据时代不可回避的重要问题。 4月13日,“2016新媒体创新峰会·DT财
灯塔大数据
2018/04/09
7760
漫谈“数据湖”
数据湖这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出。其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。业界便对数据湖一直有着广泛而不同的理解和定义。“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。” 
宜信技术学院
2019/07/04
1.7K0
聚焦技术发展及开源生态 腾讯全面揭秘大数据平台演进之路
11月7日,腾讯Techo开发者大会的“腾讯大数据”分论坛上,围绕大数据的新技术进展及开源生态,腾讯大数据团队进行了详细解读,包括由集群规模化与异构化挑战所引发的漂移计算等新技术创新,越来越普遍的实时计算需求以及新架构的实践,能够无限弹性扩展的、面向未来的数据湖体系结构,大数据技术发展的新趋势与新挑战等。
Techo
2019/11/13
1.1K0
交通大数据为啥总是治不了堵?
光有大数据,却没有足够的数据分析能力和人才储备,交通大数据要想真正应用到实处,只能靠“大海捞针”?‍‍‍‍
DT数据侠
2018/08/08
6280
交通大数据为啥总是治不了堵?
数据中台知识体系
数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制
大数据学习与分享
2024/05/18
4670
数据中台知识体系
袋鼠云思枢:数栈DTinsight,创新升级,全新出发,驶入数智转型新赛道
在 7 月 28 日的袋鼠云 2022 产品发布会上,基于对现在与未来的畅想,袋鼠云产研负责人思枢正式发布了全新的四大产品体系。
袋鼠云数栈
2022/08/24
5930
推荐阅读
相关推荐
数据猿对话丨聚合数据郭劼:数据只有在流通过程中被充分应用,价值才能最大化
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档