前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【推荐阅读】大数据的泡沫、价值和陷阱,你分得清吗?

【推荐阅读】大数据的泡沫、价值和陷阱,你分得清吗?

作者头像
钱塘数据
发布于 2018-03-05 06:40:40
发布于 2018-03-05 06:40:40
8630
举报
文章被收录于专栏:钱塘大数据钱塘大数据
如何从混沌中发现规律,成为预测未来的“先知”,抑或是少出几只黑天鹅?是历代人类的梦想。不管是古人的占卜、算命还是现在的专家系统、商业智能、数据挖掘、机器学习、人工智能、智慧地球、智慧城市等应用,都源于我们对未来不确定性的恐惧。

随着舍恩伯格教授《大数据时代》一书的面世,给我们带来了“醍醐灌顶”式的认知洗礼,难道抓住大数据这根救命稻草,我们就有机会做“先知”?从而也更有能力把自己和周遭世界管理得更好吗?在一定程度上是这样的,但我们也要知道,任何技术都是把双刃剑。

大数据泡沫:泡沫是必然但有其深远意义

甲骨文公司CEO埃里森曾说过,高科技是唯一能媲美好莱坞的产业,说明高科技领域的技术明星也是变换极快的。技术和产品一样,有其发展周期规律,大数据也是一种技术手段,最终目的还是要解决现实问题,不管是科研、商业还是政府管理问题。关注大数据的人多了,自然就有泡沫,个人认为泡沫主要体现在如下几个方面:

(1)这几年社会上关于大数据的宣传,媒体人的引进和炒作,有部分内容是在误导大家,主要原因还是很多人在盲人摸象,少有系统的研究和理解。

(2)只知其然不知其所以然,导致对大数据应用的期望太高,大数据技术不是万金油,在新的技术泛型和技术生态下,现阶段技术的稳定性、成熟性和有效性还待进一步发展。

(3)关注重点有问题,导致目前的很多大数据应用并未涉及到核心业务和计算模型,多是数据的采集和存储管理,这也是造成行业整体门槛还不够高,同质化竞争激烈,没有发挥出应有价值的原因。

大数据泡沫显然是客观存在的,但其长期的应用价值却不容小觑。大数据泡沫的价值就是让全民认识到大数据时代数据分析和数据决策的重要性,这波泡沫过去,也许我们能正式跨入人工智能时代。

大数据价值:需要你自己去定义

现阶段大数据领域注重数据采集数据存储、基础计算和可视化等层面,唯独对数据挖掘建模和决策支持这两个硬骨头没有展开深入研究和对接,这是大数据难以落地的根本原因。

我们大多数人决策其实是靠感觉、个人经验或别人建议,少部分人会亲自对报表等小数据进行客观数据分析。而大数据为我们提供了一种更加可靠的决策支持,毕竟数据不会说假话。大数据本身不产生价值,大数据的根本用途是利用大数据挖掘分析对我们的决策提供规律、知识和经验等科学依据,客观上减少面对未来决策的不确定性。

为什么大数据的价值需要我们自己去定义呢?因为对于未来、对于未知领域,我们每个人或组织面临的不确定性问题是不一样的,有的偏个体(如疾病诊断,犯罪预测),有的偏大众(如广告营销、客户细分),有的偏微观(如基因序列,个性化教育),有的偏宏观(环境监测、天文数据处理),有的关注资源优化配置(如供需匹配,出行服务),有的关注宏观决策(如政府资产分析、综合管控)......

可以说大数据分析需求无处不在,而又大不相同。这就需要从自身实际需求和数据、技术现状出发,自行设定大数据分析的价值和应用目标,生搬硬套互联网公司那套做法,不可取。

大数据陷阱:应用前先问自己几个问题

综上所述,大数据无疑是好东西,很多组织机构也正在规划或建设大数据平台,很多创业玩家也正在计划或进行大数据领域的技术服务或产品研发。但大数据领域面临的陷阱也是不少,如何才能不畏浮云遮望眼,走出一条扎实的大数据应用落地之路。本文提几个问题供大家参考:

(1)第一问:我属于什么级别的玩家?

大数据的核心优势在于规模效应,你的业务量越大、业务覆盖性越广、数据量越大,大数据投入的成本就越容易被摊薄,而长远获取的大数据应用价值就越巨大。所以,我一直认为政府才是最适合大数据应用的超级玩家,这也是为什么大数据独角兽企业Palantir的产品只有政府定制版(FBI,CIA专用)和金融定制版(华尔街金融巨头专用)的原因。

所以做大数据之前,先问问自己,我属于什么级别的玩家。我有特定领域的海量数据吗?有数据科学能力相关的核心技术(应用建模)吗?有机会成为BAT吗?或者降一级有机会成为Uber、滴滴、摩拜吗?研发的产品能否等到大规模应用之时?提供的技术是否符合客户的业务需求?因为一般来讲,大数据的初始投入成本是很高的,自我定位很关键。

(2)第二问:我是搞技术驱动、业务驱动还是数据驱动?

当前不少公司的大数据产品和服务不接地气,从开始规划上就有一定问题。很多公司都号称自己有云计算和大数据方面的产品和服务,覆盖面从HadoopSpark、MPP、NOSQL、OpenStack等,到公有云私有云、商业智能、人工智能、深度学习等等方面,偌大一片浮云,客观上促进了大数据领域的技术高速发展,可惜最终少有几家能活到赚钱。

首先,大数据领域,没有几把刷子是很难玩技术驱动的,像Hadoop,Spark这些基础框架,AlphaGo系统、Nvidia的核心产品等,后面都有一帮名校博士、教授等技术大牛的身影在支持;其次,业务驱动最靠谱,但要有足够的创新和资本支持,最近几年出现的Uber、滴滴、摩拜、Airbnb、23andMe、货车帮等创新公司,就是典型的业务驱动型大数据企业,对传统社会和商业的冲击也是颠覆性的,如果能有极好的创意和资本支持,走这条路发展潜力巨大。

而政府和大型垄断国企拥有真正的大数据金矿,有数据+业务驱动的条件,但由于自身管理体制原因或引入的技术实力太弱,大数据的价值远远没有被挖掘出来,当然这也是大机会,我们的国安部门也需要中国版的Palantir。所以大数据应用要接地气,结合自身实力,问问自己搞技术驱动、业务驱动还是数据驱动,是最需要回答的问题。

(3)第三问:我是否清楚大数据应用的局限?

现阶段,大数据应用面临诸多挑战,新技术泛型下标准的大数据应用体系尚未建立,技术复杂度和风险较高,成功案例和最佳实践缺乏。很多企业和机构都知道大数据潜力巨大,但却不知如何着手,更不清楚大数据应用有哪些局限和潜在的问题。

伯克利的Jordan教授是机器学习领域大牛,他提出了一个很好的比喻:如果大数据给出的结果可靠性低,没有经过充分的验证,就急于应用到实际业务中,会面临很大的风险,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”。

所以我们要充分了解大数据技术的局限性,数据采集的不全面必然导致数据偏见,数据质量的问题会导致Garbage In Garbage Out,我们对分析结果的不理解,或者不进行持续反馈验证升级,就无法确认模型的准确性和稳定性。

数据科学发展到现阶段,从某种程度上讲还不是一个足够严谨的学科,我们有一定的概率做出准确的预测,但是使用不当或预测不准,又会造成不好的后果。

(4)第四问:我是否准备好打一场大数据应用持久战?

从某种程度上讲,大数据的关键不在于具体项目,而在于数据决策中心的持续优化与运营,大数据系统建设要作为一个长远的事业来做,让每个成员都融入大数据管理思维变革过程中。大数据应用应该遵循“快、小、证”大数据应用原则,对一个具体的大数据项目来讲,能做到快速出原型,小分析点切入,证明有效之后再扩张的原则,就不用惧怕失败,失败后切换到下一个分析目标即可。

由于大数据项目前期的实际投入成本远远大于收益,这就更需要精耕细作,打一场大数据应用持久战,可以从小处着手,逐步构建统观全局的分析链,从而建立组织未来的大数据中心和基于大数据分析的辅助决策大脑。

(5)第五问:我是否了解大数据风险与数据偏见?

大数据时代,信息意味着权利,不同层级的信息代表不同层次的权利。这使得大数据集中之后也面临着技术风险、成本风险、安全风险和管理风险等多个层面的问题,每个层级玩家面临的风险各有侧重,需要充分引起重视。

(6)第六问:我是否理解并能贯彻大数据思维?

大数据时代,数据驱动决策是我们的必然选择,毕竟事实胜于雄辩,数据能最大限度地说明问题,数据能让你了解一些以前根本都不知道的事情,除了本身质量的问题,数据不会说谎,通过大数据挖掘进行量化分析有助于精细化管理和运营,这是大数据思维的核心所在。

不管是企业、机构还是政府,在做大数据规划或应用之前,先问问自己,组织人员理解数据决策吗?大数据能为他们带来怎样的好处?各级领导有没有大数据决策基因或者这种思维变革的驱动力?所以从数据决策角度讲,未来大数据思维在各行各业的渗透和如火如荼的大数据系统建设不亚于一场数据爆炸时代的管理变革“启蒙运动”。

大数据展望:当大数据傍上人工智

最后,做一点展望,谈谈大数据和人工智能,大数据傍上人工智能是IT技术发展的必然。另外大数据与传统商业智能技术在加速融合,如OLAP多维度分析、数据仓库等技术也在向大数据处理靠拢。

大数据的核心价值在于全量数据分析,而全量数据意味着智能诞生的基础,初级智能诞生之后会给系统以反哺和回馈数据,就像AlphaGo的强化学习和自我对抗学习一样,通过这种自我学习迭代过程,强人工智能诞生,人类正式跨入AI时代。

那个时候的若干企业大数据中心、政府大数据中心和地球上的数朵大云,将会插上智能科学的翅膀,成为AI时代的关键基础设施,到时大数据技术如何演化,国家又会呈现出怎样的社会形态,让我们拭目以待。

作者:杜圣东 ZMTech CEO

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 钱塘大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据结构常见的八大排序算法
前言 八大排序,三大查找是《数据结构》当中非常基础的知识点,在这里为了复习顺带总结了一下常见的八种排序算法。 常见的八大排序算法,他们之间关系如下: 他们的性能比较: 下面,利用Python分别将他们进行实现。 直接插入排序 算法思想: 直接插入排序的核心思想就是:将数组中的所有元素依次跟前面已经排好的元素相比较,如果选择的元素比已排序的元素小,则交换,直到全部元素都比较过。 因此,从上面的描述中我们可以发现,直接插入排序可以用两个循环完成: 第一层循环:遍历待比较的所有数组元素 第二层循环
小莹莹
2018/04/23
1.2K0
数据结构常见的八大排序算法
八大排序算法总结与java实现
概述 因为健忘,加上对各种排序算法理解不深刻,过段时间面对排序就蒙了。所以决定对我们常见的这几种排序算法进行统一总结。首先罗列一下常见的十大排序算法: 请点击此处输入图片描述 我们讨论的这八大排序算法的实现可以参考我的Github:SortAlgorithms,其中也包括了排序测试模块[Test.java]和排序算法对比模块[Bench.java],大家可以试运行。 它们都属于内部排序,也就是只考虑数据量较小仅需要使用内存的排序算法,他们之间关系如下: 请点击此处输入图片描述 一、直接插入排序(In
企鹅号小编
2018/01/18
1.1K0
八大排序算法总结与java实现
算法 | 数据结构常见的八大排序算法
01 前言 八大排序,三大查找是《数据结构》当中非常基础的知识点,在这里为了复习顺带总结了一下常见的八种排序算法。 常见的八大排序算法,他们之间关系如下: 排序算法.png 他们的性能比较:
用户1332428
2018/03/08
1K0
算法 | 数据结构常见的八大排序算法
八大排序算法详解_面试+提升
八大排序算法详解_面试+提升 概述 排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。 我们这里说说八大
Java帮帮
2018/03/15
1.4K0
八大排序算法详解_面试+提升
八大排序算法
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hguisu/article/details/7776068
用户2965768
2019/06/20
7590
八大排序算法
【数据结构】七大排序算法
排序的相关概念 排序的分类 根据在排序过程中带排序的记录是否全部被放置在内存中,排序分为: 内排序 外排序 1.内排序 内排序是在排序整个过程中,带排序的所有记录全部放置在内存中。 影响内排序的主要因素: 时间性能。(主要受比较和移动两种操作的影响) 辅助空间。 算法的复杂性。 内排序的分类 根据排序过程中借助的主要操作,内排序分为: 插入排序 交换排序 选择排序 归并排序 2.外排序 外排序是由于排序的记录个数太多,不能同时放置在内存中,整个排序过程需要在内外存之间多次交换数据才能进行。 按照算法的复杂
我就是马云飞
2018/02/05
1.2K0
【数据结构】七大排序算法
八大排序算法
(1)基本思想:算法先将要排序的一组数按某个增量d(n/2,n为要排序数的个数)分成若干组,每组中记录的下标相差d.对每组中全部元素进行直接插入排序,然后再用一个较小的增量(d/2)对它进行分组,在每组中再进行直接插入排序。当增量减到1时,进行直接插入排序后,排序完成。
哲洛不闹
2018/09/19
3970
八大排序算法
八大排序算法
​ 八大排序算法是面试经常考到的,尤其是快排,希尔排序和归并也是经常会让写代码的题目,其实只要用一句话说明了他们的原理我们写起代码就没那么困难。 冒泡排序 思想:有 n 个数我们就进行 n-1 趟排序,每一趟我们都选取最大的一个数放到已经排序的位置即可。 伪代码:两个 For 循环,外层表示要进行的趟数,内层则是找出最大的数,找最大的数的方法就是比较、交换。 时间复杂度:O(n2) 空间复杂度:O(n) 代码: package Sorting; import org.junit.jupiter.ap
lwen
2018/04/17
9370
八大排序算法
面试中的 10 大排序算法总结
查找和排序算法是算法的入门知识,其经典思想可以用于很多算法当中。因为其实现代码较短,应用较常见。所以在面试中经常会问到排序算法及其相关的问题。但万变不离其宗,只要熟悉了思想,灵活运用也不是难事。一般在面试中最常考的是快速排序和归并排序,并且经常有面试官要求现场写出这两种排序的代码。对这两种排序的代码一定要信手拈来才行。还有插入排序、冒泡排序、堆排序、基数排序、桶排序等。面试官对于这些排序可能会要求比较各自的优劣、各种算法的思想及其使用场景。还有要会分析算法的时间和空间复杂度。通常查找和排序算法的考察是面试的开始,如果这些问题回答不好,估计面试官都没有继续面试下去的兴趣都没了。所以想开个好头就要把常见的排序算法思想及其特点要熟练掌握,有必要时要熟练写出代码。
哲洛不闹
2018/09/18
1.2K0
面试中的 10 大排序算法总结
超全 | 七大排序算法图文详解
原文:https://www.jianshu.com/p/876931436177
攻城狮的那点事
2020/01/14
6540
超全 | 七大排序算法图文详解
排序算法 归纳总结
一、直接插入排序、冒泡排序和简单选择排序是最基本的排序方法,它们主要用于元素个数n(n<10000)不是很大的情形。
week
2018/08/24
6190
八种排序算法
来源:juejin.im/post/5cb6b8f551882532c334bcf2
Java团长
2019/08/31
1.1K0
Python数据结构与算法 实现八大经典排序算法
在面试题中可能会遇到排序算法,毕竟作为程序员内功心法,熟练掌握排序算法是很重要的,本文总结了八大经典排序算法的 Python 实现。排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。
叶庭云
2021/12/01
3590
Python数据结构与算法  实现八大经典排序算法
我的软考之路(六)——数据结构与算法(4)之八大排序
排序是编程的基础,在程序中会经常使用,好的排序方法可以帮助你提高程序运行的效率,所以学好排序,打好基础,对于程序的优化会手到擒来。无论你的技术多么强,如果没有基础也强不到哪去。
程序猿小亮
2021/01/28
6870
八大排序算法的 Python 实现!
今天CoCo酱给大家介绍一下关于八大排序算法的Python实现,对八大排序算法进行详细描述和代码实现,下面我们一起来看一下吧。 1、插入排序 描述: 插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的、个数加一的有序数据,算法适用于少量数据的排序,时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分:第一部分包含了这个数组的所有元素,但将最后一个元素除外(让数组多一个空间才有插入的位置),而第二部分就只包含这一个元素(即待插入元素)。在第一部分排序完成后,
企鹅号小编
2018/02/01
8970
八大排序算法的 Python 实现!
【Java系列】八大排序算法
时隔4年,我终于把八大排序算法梳理了一遍,比起大学时零零散散的学习,现在就是一个大规范,当然代码是从优秀小伙伴那里Ctrl+C过来的,就是当我复习了一遍好多年没考过的题吧,哈哈哈。
用户9913368
2022/08/13
2180
【Java系列】八大排序算法
【愚公系列】软考中级-软件设计师 022-数据结构(排序算法)
直接插入排序是一种简单直观的排序算法,它的思想是将一个序列分为有序和无序两部分,每次从无序部分中取出一个元素,插入到有序部分的正确位置上,直到整个序列有序为止。
愚公搬代码
2024/02/03
3340
十大经典排序算法动图演示+Python实现
而今天这篇文章,转自 Github 上一个项目,此项目整理了 10 个常见排序算法的原理、演示和多种语言的实现。这里我们摘录其中 Python 的实现,分享给大家。
Crossin先生
2020/01/16
1.4K0
十大经典排序算法动图演示+Python实现
八大排序算法(java实现) 冒泡排序 快速排序 堆排序 归并排序 等
一、直接插入 - 1.基本思路 - 2.代码实现 - 3.时间复杂度和空间复杂度二、希尔排序 - 1.基本思路 - 2.代码实现 - 3.时间复杂度和空间复杂度三、简单选择 - 1.基本思路 - 2.代码实现 - 3.时间复杂度和空间复杂度四、堆排序 - 1.基本思路 - 2.代码实现 - 3.时间复杂度和空间复杂度五、冒泡排序 - 1.基本思路 - 2.代码实现 - 3.时间复杂度和空间复杂度六、快速排序 - 1.基本思路 - 2.代码实现 - 3.时间复杂度和空间复杂度七、归并排序 - 1.基本思路 - 2.代码实现 - 3.时间复杂度和空间复杂度八、基数排序 - 1.基本思路 - 2.代码实现 - 3.时间复杂度和空间复杂度总结
用户7886150
2020/12/04
2760
十大经典排序算法(Python代码实现)
排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括:
Python数据科学
2018/08/06
2.4K0
十大经典排序算法(Python代码实现)
相关推荐
数据结构常见的八大排序算法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档