Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文读懂大数据:Hadoop,大数据技术及相关应用

一文读懂大数据:Hadoop,大数据技术及相关应用

作者头像
IT阅读排行榜
发布于 2018-08-15 07:22:11
发布于 2018-08-15 07:22:11
5330
举报
文章被收录于专栏:华章科技华章科技
来源:Wikibon社区

导读

你想了解大数据,却对生涩的术语毫不知情?你想了解大数据的市场和应用,却又没有好的案例和解说?别担心,这本来自Wikibon社区的小书想要帮你。

是的,这是一本小书而不是一篇文章,因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉,变成一个熟知其概念和意义的“内行人”,所以它很棒!

主要内容

1来自Wikibon社区的大数据宣言 2数据处理与分析:传统方式 3大数据性质的变化 4大数据处理和分析的新方法

5大数据方法的互补

6大数据供应商发展状况 7大数据:实际使用案例 8大数据技能差距 9大数据:企业和供应商的后续动作

来自Wikibon社区的大数据宣言

为公司提供有效的业务分析工具和技术是首席信息官的首要任务。有效的业务分析(从基本报告到高级的数据挖掘和预测分析)使得数据分析人员和业务人员都可以从数据中获得见解,当这些见解转化为行动,会给公司带来更高的效率和盈利能力。

所有业务分析都是基于数据的。传统意义上,这意味着企业自己创建和存储的结构化数据,如CRM系统中的客户数据,ERP系统中的运营数据,以及会计数据库中的财务数据。得益于社交媒体和网络服务(如Facebook,Twitter),数据传感器以及网络设备,机器和人类产生的网上交易,以及其他来源的非结构化和半结构化的数据的普及,企业现有数据的体积和类型以及为追求最大商业价值而产生的近实时分析的需求正在迅速增加。我们称这些为大数据。

传统的数据管理和业务分析工具及技术都面临大数据的压力,与此同时帮助企业获得来自大数据分析见解的新方法不断涌现。这些新方法采取一种完全不同于传统工具和技术的方式进行数据处理、分析和应用。这些新方法包括开源框架HadoopNoSQL数据库(如Cassandra和Accumulo)以及大规模并行分析数据库(如EMC的Greenplum,惠普的Vertica和TeradataASTERData)。这意味着,企业也需要从技术和文化两个角度重新思考他们对待业务分析的方式。

对于大多数企业而言,这种转变并不容易,但对于接受转变并将大数据作为业务分析实践基石的企业来说,他们会拥有远远超过胆小对手的显著竞争优势。大数据助力复杂的业务分析可能为企业带来前所未有的关于客户行为以及动荡的市场环境的深入洞察,使得他们能够更快速的做出数据驱动业务的决策,从而比竞争对手更有效率。

从存储及支持大数据处理的服务器端技术到为终端用户带来鲜活的新见解的前端数据可视化工具,大数据的出现也为硬件、软件和服务供应商提供了显著的机会。这些帮助企业过渡到大数据实践者的供应商,无论是提供增加商业价值的大数据用例,还是发展让大数据变为现实的技术和服务,都将得到茁壮成长。

大数据是所有行业新的权威的竞争优势。认为大数据是昙花一现的企业和技术供应商很快就会发现自己需要很辛苦才能跟上那些提前思考的竞争对手的步伐。在我们看来,他们是非常危险的。对于那些理解并拥抱大数据现实的企业,新创新,高灵活性,以及高盈利能力的可能性几乎是无止境的。

数据处理和分析:传统方式

传统上,为了特定分析目的进行的数据处理都是基于相当静态的蓝图。通过常规的业务流程,企业通过CRM、ERP和财务系统等应用程序,创建基于稳定数据模型的结构化数据。数据集成工具用于从企业应用程序和事务型数据库中提取、转换和加载数据到一个临时区域,在这个临时区域进行数据质量检查和数据标准化,数据最终被模式化到整齐的行和表。这种模型化和清洗过的数据被加载到企业级数据仓库。这个过程会周期性发生,如每天或每周,有时会更频繁。

在传统数据仓库中,数据仓库管理员创建计划,定期计算仓库中的标准化数据,并将产生的报告分配到各业务部门。他们还为管理人员创建仪表板和其他功能有限的可视化工具。

同时,业务分析师利用数据分析工具在数据仓库进行高级分析,或者通常情况下,由于数据量的限制,将样本数据导入到本地数据库中。非专业用户通过前端的商业智能工具(SAP的BusinessObjects和IBM的Cognos)对数据仓库进行基础的数据可视化和有限的分析。传统数据仓库的数据量很少超过几TB,因为大容量的数据会占用数据仓库资源并且降低性能。

大数据性质的变化

Web、移动设备和其他技术的出现导致数据性质的根本性变化。大数据具有重要而独特的特性,这种特性使得它与“传统”企业数据区分开来。不再集中化、高度结构化并且易于管理,与以往任何时候相比,现在的数据都是高度分散的、结构松散(如果存在结构的话)并且体积越来越大。

具体来说:

  • ·体积-通过Web、移动设备、IT基础设施和其他来源产生的企业内部和防火墙外的数据量每年都在成倍增加。
  • ·类型-数据类型的多样性增加,包括非结构化文本数据以及半结构化数据(如社交媒体数据,基于位置的数据和日志文件数据)。
  • ·速度-得益于数字化交易、移动计算以及互联网和移动设备的高用户量,新数据被创建的速度以及实时分析的需求正在增加。

广义地说,大数据由多个来源产生,包括:

  • ·社交网络和媒体:目前有超过7亿Facebook用户,2.5亿Twitter用户和1.56亿面向公众开放的博客。Facebook上的每个更新、Tweet和博客上文章的发布及评论都会创建多个新的数据点(包含结构化、半结构化和非结构化的),这些数据点有时被称为“数据废气”。
  • ·移动设备:全球有超过50亿正在使用中的移动电话。每次呼叫、短信和即时消息都被记录为数据。移动设备(尤其是智能手机和平板电脑)让使用社交媒体等应用程序更容易,而社会媒体的使用会产生大量数据。移动设备也收集和传送位置数据。
  • ·网上交易:数十亿的网上购物、股票交易等每天都在发生,包括无数的自动交易。每次交易都产生了大量数据点,这些数据点会被零售商、银行、信用卡、信贷机构和其他机构收集。
  • ·网络设备和传感器:各种类型的电子设备(包括服务器和其他IT硬件、智能电表和温度传感器)都会创建半结构化的日志数据记录每一个动作。

从时间或成本效益上看,传统的数据仓库等数据管理工具都无法实现大数据的处理和分析工作。也就是说,必须将数据组织成关系表(整齐的行和列数据),传统的企业级数据仓库才可以处理。由于需要的时间和人力成本,对海量的非结构化数据应用这种结构是不切实际的。此外,扩展传统的企业级数据仓库使其适应潜在的PB级数据需要在新的专用硬件上投资巨额资金。而由于数据加载这一个瓶颈,传统数据仓库性能也会受到影响。

因此,需要处理和分析大数据的新方法。

大数据处理和分析的新方法

存在多种方法处理和分析大数据,但多数都有一些共同的特点。即他们利用硬件的优势,使用扩展的、并行的处理技术,采用非关系型数据存储处理非结构化和半结构化数据,并对大数据运用高级分析和数据可视化技术,向终端用户传达见解。

1.Hadoop

Hadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由雅虎的Doug Cutting创建,Hadoop的灵感来自于 MapReduce ,MapReduce是谷歌在2000年代初期开发的用于网页索引的用户定义函数。它被设计用来处理分布在多个并行节点的PB级和EB级数据。

Hadoop集群运行在廉价的商用硬件上,这样硬件扩展就不存在资金压力。Hadoop现在是Apache软件联盟(The Apache Software Foundation)的一个项目,数百名贡献者不断改进其核心技术。基本概念:与将海量数据限定在一台机器运行的方式不同,Hadoop将大数据分成多个部分,这样每个部分都可以被同时处理和分析。

Hadoop如何工作

客户从日志文件、社交媒体供稿和内部数据存储等来源获得非结构化和半结构化数据。它将数据打碎成“部分”,这些“部分”被载入到商用硬件的多个节点组成的文件系统。Hadoop的默认文件存储系统是Hadoop分布式文件系统。文件系统(如HDFS)善于存储大量非结构化和半结构化数据,因为它们不需要将数据组织成关系型的行和列。

各“部分”被复制多次,并加载到文件系统。这样,如果一个节点失效,另一个节点包含失效节点数据的副本。名称节点充当调解人,负责沟通信息:如哪些节点是可用的,某些数据存储在集群的什么地方,以及哪些节点失效。

一旦数据被加载到集群中,它就准备好通过MapReduce 框架进行分析。客户提交一个“匹配”的任务( 通常是用Java编写的查询语句)给到一个被称为作业跟踪器的节点。该作业跟踪器引用名称节点,以确定完成工作需要访问哪些数据,以及所需的数据在集群的存储位置。一旦确定,作业跟踪器向相关节点提交查询。每个节点同时、并行处理,而非将所有数据集中到一个位置处理。这是Hadoop的一个本质特征。

当每个节点处理完指定的作业,它会存储结果。客户通过任务追踪器启动“Reduce”任务。汇总map阶段存储在各个节点上的结果数据,获得原始查询的“答案”,然后将“答案”加载到集群的另一个节点中。客户就可以访问这些可以载入多种分析环境进行分析的结果了。MapReduce 的工作就完成了。

一旦MapReduce 阶段完成,数据科学家和其他人就可以使用高级数据分析技巧对处理后的数据进一步分析。也可以对这些数据建模,将数据从Hadoop集群转移到现有的关系型数据库、数据仓库等传统IT系统进行进一步的分析。

Hadoop的技术组件

Hadoop “栈”由多个组件组成。包括:

  • · Hadoop分布式文件系统(HDFS):所有Hadoop集群的默认存储层;
  • · 名称节点:在Hadoop集群中,提供数据存储位置以及节点失效信息的节点。
  • · 二级节点:名称节点的备份,它会定期复制和存储名称节点的数据,以防名称节点失效。
  • · 作业跟踪器:Hadoop集群中发起和协调MapReduce作业或数据处理任务的节点。
  • · 从节点:Hadoop集群的普通节点,从节点存储数据并且从作业跟踪器那里获取数据处理指令。

除了上述以外,Hadoop生态系统还包括许多免费子项目。NoSQL数据存储系统(如Cassandra和HBase)也被用于存储Hadoop的MapReduce作业结果。除了Java,很多 MapReduce 作业及其他Hadoop的功能都是用Pig语言写的,Pig是专门针对Hadoop设计的开源语言。Hive最初是由Facebook开发的开源数据仓库,可以在Hadoop中建立分析模型。

Hadoop:优点和缺点

Hadoop的主要好处是,它可以让企业以节省成本并高效的方式处理和分析大量的非结构化和半结构化数据,而这类数据迄今还没有其他处理方式。因为Hadoop集群可以扩展到PB级甚至EB级数据,企业不再必须依赖于样本数据集,而可以处理和分析所有相关数据。数据科学家可以采用迭代的方法进行分析,不断改进和测试查询语句,从而发现以前未知的见解。使用Hadoop的成本也很廉价。开发者可以免费下载Apache的Hadoop 分布式平台,并且在不到一天的时间内开始体验Hadoop。

Hadoop及其无数组件的不足之处是,他们还不成熟,仍处于发展阶段。就像所有新的、原始的技术一样,实施和管理Hadoop集群,对大量非结构化数据进行高级分析,都需要大量的专业知识、技能和培训。不幸的是,目前Hadoop开发者和数据科学家的缺乏,使得众多企业维持复杂的Hadoop集群并利用其优势变得很不现实。此外,由于Hadoop的众多组件都是通过技术社区得到改善,并且新的组件不断被创建,因此作为不成熟的开源技术,也存在失败的风险。最后,Hadoop是一个面向批处理的框架,这意味着它不支持实时的数据处理和分析。

好消息是,一些聪明的IT人士不断对Apache Hadoop项目做出贡献,新一代的Hadoop开发者和数据科学家们正在走向成熟。因此,该技术的发展日新月异,逐渐变得更加强大而且更易于实施和管理。供应商(包括Hadoop的初创企业Cloudera和Hortonworks)以及成熟的IT中坚企业(如IBM和微软)正在努力开发企业可用的商业Hadoop分布式平台、工具和服务,让部署和管理这项技术成为传统企业可用的实际现实。其他初创企业正在努力完善NoSQL(不仅仅是SQL)数据系统,结合Hadoop提供近实时的分析解决方案。

2.NoSQL

一种称为NoSQL的新形式的数据库(Not Only SQL)已经出现,像Hadoop一样,可以处理大量的多结构化数据。但是,如果说Hadoop擅长支持大规模、批量式的历史分析,在大多数情况下(虽然也有一些例外),NoSQL 数据库的目的是为最终用户和自动化的大数据应用程序提供大量存储在多结构化数据中的离散数据。这种能力是关系型数据库欠缺的,它根本无法在大数据规模维持基本的性能水平。

在某些情况下,NoSQL和Hadoop协同工作。例如,HBase是流行的NoSQL数据库,它仿照谷歌的BigTable,通常部署在HDFS(Hadoop分布式文件系统)之上,为Hadoop提供低延迟的快速查找功能。

目前可用的NoSQL数据库包括:

  • · HBase
  • · Cassandra
  • · MarkLogic
  • · Aerospike
  • · MongoDB
  • · Accumulo
  • · Riak
  • · CouchDB
  • · DynamoDB

目前大多数NoSQL数据库的缺点是,为了性能和可扩展性,他们遵从ACID(原子性,一致性,隔离性,持久性)原则。许多NoSQL数据库还缺乏成熟的管理和监控工具。这些缺点在开源的NoSQL社区和少数厂商的努力下都在克服过程中,这些厂商包括DataStax,Sqrrl,10gen,Aerospike和Couchbase,他们正在尝试商业化各种NoSQL数据库。

3.大规模并行分析数据库

不同于传统的数据仓库,大规模并行分析数据库能够以必需的最小的数据建模,快速获取大量的结构化数据,可以向外扩展以容纳TB甚至PB级数据。

对最终用户而言最重要的是,大规模并行分析数据库支持近乎实时的复杂SQL查询结果,也叫交互式查询功能 ,而这正是Hadoop显著缺失的能力。大规模并行分析数据库在某些情况下支持近实时的大数据应用。大规模并行分析数据库的基本特性包括:

大规模并行处理的能力: 就像其名字表明的一样,大规模并行分析数据库采用大规模并行处理同时支持多台机器上的数据采集、处理和查询。相对传统的数据仓库具有更快的性能,传统数据仓库运行在单一机器上,会受到数据采集这个单一瓶颈点的限制。

无共享架构: 无共享架构可确保分析数据库环境中没有单点故障。在这种架构下,每个节点独立于其他节点,所以如果一台机器出现故障,其他机器可以继续运行。对大规模并行处理环境而言,这点尤其重要,数百台计算机并行处理数据,偶尔出现一台或多台机器失败是不可避免的。

列存储结构: 大多数大规模并行分析数据库采用列存储结构,而大多数关系型数据库以行结构存储和处理数据。在列存储环境中,由包含必要数据的列决定查询语句的“答案”,而不是由整行的数据决定,从而导致查询结果瞬间可以得出。这也意味着数据不需要像传统的关系数据库那样构造成整齐的表格。

强大的数据压缩功能: 它们允许分析数据库收集和存储更大量的数据,而且与传统数据库相比占用更少的硬件资源。例如,具有10比1的压缩功能的数据库,可以将10 TB字节的数据压缩到1 TB。数据编码(包括数据压缩以及相关的技术)是有效的扩展到海量数据的关键。

商用硬件: 像Hadoop集群一样,大多数(肯定不是全部)大规模并行分析数据库运行在戴尔、IBM等厂商现成的商用硬件上,这使他们能够以具有成本效益的方式向外扩展。

在内存中进行数据处理: 有些(肯定不是全部)大规模并行分析数据库使用动态RAM或闪存进行实时数据处理。有些(如SAP HANA和 Aerospike)完全在内存中运行数据,而其他则采用混合的方式,即用较便宜但低性能的磁盘内存处理“冷”数据,用动态RAM或闪存处理“热”数据。

然而,大规模并行分析数据库确实有一些盲点。最值得注意的是,他们并非被设计用来存储、处理和分析大量的半结构化和非结构化数据。

大数据方法的互补

Hadoop,NoSQL 和大规模并行分析数据库不是相互排斥的。相反的,Wikibon 认为这三种方法是互补的,彼此可以而且应该共存于许多企业。Hadoop擅长处理和分析大量分布式的非结构化数据,以分批的方式进行历史分析。NoSQL 数据库擅长为基于Web的大数据应用程序提供近实时地多结构化数据存储和处理。而大规模并行分析数据库最擅长对大容量的主流结构化数据提供接近实时的分析。

例如,Hadoop完成的历史分析可以移植到分析数据库供进一步分析,或者与传统的企业数据仓库的结构化数据进行集成。从大数据分析得到的见解可以而且应该通过大数据应用实现产品化。企业的目标应该是实现一个灵活的大数据架构,在该架构中,三种技术可以尽可能无缝地共享数据和见解。

很多预建的连接器可以帮助Hadoop开发者和管理员实现这种数据集成,同时也有很多厂商(包括Pivotal Initiative-原EMC的Greenplum,CETAS-和Teradata Aster)提供大数据应用。这些大数据应用将Hadoop、分析数据库和预配置的硬件进行捆绑,可以达到以最小的调整实现快速部署的目的。另外一种情况,Hadapt提供了一个单一平台,这个平台在相同的集群上同时提供SQL和Hadoop/MapReduce的处理功能。Cloudera也在Impala和Hortonworks项目上通过开源倡议推行这一策略。

但是,为了充分利用大数据,企业必须采取进一步措施。也就是说,他们必须使用高级分析技术处理数据,并以此得出有意义的见解。数据科学家通过屈指可数的语言或方法(包括SAS和R)执行这项复杂的工作。分析的结果可以通过Tableau这样的工具可视化,也可以通过大数据应用程序进行操作,这些大数据应用程序包括自己开发的应用程序和现成的应用程序。其他厂商(包括 Platfora和Datameer)正在开发商业智能型的应用程序,这种应用程序允许非核心用户与大数据直接交互。

底层的大数据方法(如Hadoop,NoSQL和大规模并行分析数据库)不仅本身是互补的,而且与大部分大型企业现有的数据管理技术互补。Wikibon并不建议企业CIO们为了大数据方法而“淘汰并更换”企业现有的全部的数据仓库、数据集成和其他数据管理技术。

相反,Wikibon认为首席信息官必须像投资组合经理那样思考,重新权衡优先级,为企业走向创新和发展奠定基础,同时采取必要的措施减轻风险因素。用大数据方法替换现有的数据管理技术,只有当它的商业意义和发展计划与现有的数据管理基础设施尽可能无缝地整合时才有意义。最终目标应该是转型为现代数据架构(见图3和文章链接)。

大数据供应商发展状况

大数据供应商正在迅速发展。参见图4对一个细分市场的概述,对于大数据市场的详细分析,包括市场规模(现状及到2017年的五年预测)和供应商之间的大数据收入数字。

大数据:实际使用案例

让Hadoop和其他大数据技术如此引人注目的部分原因是,他们让企业找到问题的答案,而在此之前他们甚至不知道问题是什么。这可能会产生引出新产品的想法,或者帮助确定改善运营效率的方法。不过,也有一些已经明确的大数据用例,无论是互联网巨头如谷歌,Facebook和LinkedIn还是更多的传统企业。它们包括:

推荐引擎:网络资源和在线零售商使用Hadoop根据用户的个人资料和行为数据匹配和推荐用户、产品和服务。LinkedIn使用此方法增强其“你可能认识的人”这一功能,而亚马逊利用该方法为网上消费者推荐相关产品。

情感分析: Hadoop与先进的文本分析工具结合,分析社会化媒体和社交网络发布的非结构化的文本,包括Tweets和Facebook,以确定用户对特定公司,品牌或产品的情绪。分析既可以专注于宏观层面的情绪,也可以细分到个人用户的情绪。

风险建模: 财务公司、银行等公司使用Hadoop和下一代数据仓库分析大量交易数据,以确定金融资产的风险,模拟市场行为为潜在的“假设”方案做准备,并根据风险为潜在客户打分。

欺诈检测: 金融公司、零售商等使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。例如,信用卡公司使用大数据技术识别可能的被盗卡的交易行为。

营销活动分析:各行业的营销部门长期使用技术手段监测和确定营销活动的有效性。大数据让营销团队拥有更大量的越来越精细的数据,如点击流数据和呼叫详情记录数据,以提高分析的准确性。

客户流失分析: 企业使用Hadoop和大数据技术分析客户行为数据并确定分析模型,该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措施挽留欲流失客户。

社交图谱分析: Hadoop和下一代数据仓库相结合,通过挖掘社交网络数据,可以确定社交网络中哪些客户对其他客户产生最大的影响力。这有助于企业确定其“最重要”的客户,不总是那些购买最多产品或花最多钱的,而是那些最能够影响他人购买行为的客户。

用户体验分析: 面向消费者的企业使用Hadoop和其他大数据技术将之前单一 客户互动渠道(如呼叫中心,网上聊天,微博等)数据整合在一起, ,以获得对客户体验的完整视图。这使企业能够了解客户交互渠道之间的相互影响,从而优化整个客户生命周期的用户体验。

网络监控:Hadoop 和其他大数据技术被用来获取,分析和显示来自服务器,存储设备和其他IT硬件的数据,使管理员能够监视网络活动,诊断瓶颈等问题。这种类型的分析,也可应用到交通网络,以提高燃料效率,当然也可以应用到其他网络。

研究与发展: 有些企业(如制药商)使用Hadoop技术进行大量文本及历史数据的研究,以协助新产品的开发。

当然,上述这些都只是大数据用例的举例。事实上,在所有企业中大数据最引人注目的用例可能尚未被发现。这就是大数据的希望。

大数据技能差距

企业运用大数据的最大障碍是缺乏相关的技能,如Hadoop管理技能、大数据分析技能或数据科学。为了让大数据真正被大量采用,并且实现其全部潜力,缩小技能上的差距就至关重要了。这需要从两条战线进行攻击:

首先,这意味着开源社区和商业大数据厂商必须开发易于使用的大数据管理和分析工具和技术,为传统的IT和商业智能专业人士降低进入的门槛。这些工具和技术,必须从底层数据处理框架抽象掉尽可能多的复杂性。可以通过图形用户界面,类似于向导的安装功能和日常任务自动化的组合方式实现。

其次,社会必须开发更多的教育资源,培养现有的IT和商业智能专业人士以及高中生和大学生成为我们未来所需要的大数据从业者。

据麦肯锡公司研究,到2018年仅美国就有可能面临14万〜19万具备专业分析技能的人才,以及懂得使用大数据分析做出有效决策的150万经理和分析师的短缺。造成短缺的部分原因是数据科学本身的规律导致的,因为数据科学要求各种综合技能。

具体来说,数据科学家必须具备的技术技能侧重于统计、计算机科学和数学。但他们还必须具有商业头脑,即了解现有业务,并且能找到大数据可以业务提供最大价值的方向。或许同样重要的是,数据科学家必须具备专业的沟通技巧,以及通过大数据的可视化,向业务同事讲故事的能力。

正如本报告中提到的,一些大数据厂商开始提供大数据培训课程。IT从业者具有极好的机会,利用这些培训和教育活动的优势磨练自己的数据分析技能,并可以在企业内部确定新的职业道路。同样,在南加州大学、北卡罗来纳州立大学、纽约大学和其他地方,几门关于大数据和高级分析技术的大学级别的课程也应运而生。但大数据的发展和普及还是需要更多的课程。

只有通过两条战线-更好的工具和技术,更好的教育和培训-才能克服大数据技术差距。

大数据:企业和供应商的后续动作

对企业和为他们服务的供应商双方而言,大数据都具有很大的潜力,但首先必须先采取行动。Wikibon的建议如下。

行动项目:各个行业的企业应评估现有和潜在的大数据用例,参与大数据社区了解最新的技术发展。与大数据社区里志趣相投的企业和供应商一起识别大数据能够提供商业价值的领域。接下来,考虑企业内部的大数据技术水平,确定是否开始大数据方法,如Hadoop的试验。如果是这样,与IT部门和业务部门一起制定计划,将大数据工具、技术和方法整合到企业现有的IT基础架构。

最重要的是,首先要在所有工作人员中培养数据驱动的文化,鼓励数据实验。当这个基础已经奠定,开始使用大数据的技术和方法提供最大的业务价值,并不断地重新评估新成熟的大数据方法。

END

版权声明: 转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-09-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【学习】一文读懂大数据(下)
NoSQL 一种称为NoSQL的新形式的数据库(Not Only SQL)已经出现,像Hadoop一样,可以处理大量的多结构化数据。但是,如果说Hadoop擅长支持大规模、批量式的历史分析,在大多数情况下(虽然也有一些例外),NoSQL 数据库的目的是为最终用户和自动化的大数据应用程序提供大量存储在多结构化数据中的离散数据。这种能力是关系型数据库欠缺的,它根本无法在大数据规模维持基本的性能水平。 在某些情况下,NoSQL和Hadoop协同工作。例如,HBase是流行的NoSQL数据库,它仿照谷歌的Big
小莹莹
2018/04/18
6140
【学习】一文读懂大数据(下)
【简介】大数据技术综述
首先,在学习大数据之前,需要了解什么是大数据?它是如何诞生的?它有哪些应用场景?只有了解了这些,才能窥视大数据的技术全貌。一个技术的诞生,是顺应时代的,是用于解决某些问题的,它的发展也一定是有内在逻辑的。接下来,一起去看看。
十里桃花舞丶
2021/09/10
2.3K0
【大数据100分】大数据架构及行业大数据应用(中级教程)
【大数据100分】南大通用CTO武新:大数据架构及行业大数据应用〖大数据中级教程〗 主讲嘉宾:武新 主持人:中关村大数据产业联盟 副秘书长陈新河 承办:中关村大数据产业联盟 武新,南大通用高级副总裁兼CTO,法国奥尔良大学和法国国家科研中心博士;南大通用GBASE系列数据库产品的总设计师。在著名的甲骨文公司任职12年,是世界顶级的Oracle数据库专家。2010年获得中组部实施的国家“千人计划”荣誉(海外高层次人才引进计划),是国内基础软件行业唯一入选的数据库技术专家。对目前最新兴的列存储技术、压缩技术
大数据文摘
2018/05/21
1.2K0
驱动大数据的技术发展
据估计,每天会创建2.5百万兆字节的数据,我们需要将这些前所未有的大量数据妥善储存以便日后访问以及对其进行分析。这些数据量大到需要使用鲜为人知的单位来衡量,如ZB,PB和EB。随着公司搜集到的数据越来越多,并希望能方便的访问这些数据,这对技术和基础设施的要求更高了。21世纪初,行业分析师Doug Laney提出了一个大数据的构成定义,这个“三V”定义现在已经得到了广泛认可。“三V”定义使用三个标记来描述什么是大数据 – 不仅是对数据量的描述。
用户1433327
2018/05/31
5770
驱动大数据的技术发展
收藏 | 大数据应用及其解决方案(完整版)
大数据,IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。
钱塘数据
2018/10/26
4.3K0
2015年5个大数据技术预测
★每日一题(答案次日公布) 昨日Q2答案:A Q3: 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 ________________________________________________________ 摘要:   大数据技术快速进化,各种迹象显示2015年仍将持续。MapR的联合创始人兼CEO John Schroeder预测,在2015年里,五大发展将会主导大数据技术。   在短短几年里
小莹莹
2018/04/23
5200
2015年5个大数据技术预测
关于大数据你需要知道的一切
摘要:分析大量的数据只是使大数据与以前的数据分析不同的部分,还需要了解其他三方面是什么。 人类每天都吃、睡、工作、玩,这生产数据并且是大量的数据。根据IBM的数据,人类每天产生2.5万亿(250亿
企鹅号小编
2018/01/08
7850
关于大数据你需要知道的一切
大数据应用及其解决方案(完整版)
大数据,IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。
全栈程序员站长
2022/09/05
2.3K0
大数据应用及其解决方案(完整版)
大数据架构模式
大数据架构的目的是处理传统数据库系统无法处理的过大或复杂的数据的摄取、处理和分析。
35岁程序员那些事
2020/02/24
1.5K0
【案例】农业银行大数据平台项目——海量数据复杂运算处理
数据猿导读 随着数据量的不断增大、接入的系统越来越多,系统加工效率逐步降低,满足内部数据分析和监管机构的监管数据不断增加的需求,农业银行在2013年开始建设完全自主可控的大数据平台。 本篇案例为数据猿
数据猿
2018/04/24
8.1K0
【案例】农业银行大数据平台项目——海量数据复杂运算处理
大数据技术体系梳理
来一起认识下大数据的技术框架有哪些,它们分别用于解决哪些问题?它们的内在逻辑和适用场景有哪些?OK,一起去探索下。
十里桃花舞丶
2021/01/05
1.7K0
大数据技术体系梳理
【案例】恒丰银行——基于大数据技术的数据仓库应用建设
数据猿导读 恒丰银行探索采用大数据技术构建统一的企业级数据管理平台,重构数据仓库应用,减少数据重复加工与存储,促进信息管理应用的数据融合共享,提高数据处理总体效率,提升数据分析和应用创新能力,正逐步取得预期的成效。 本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 恒丰银行 的投递 作为整体活动的第二部分,2017年6月29日,由数据猿主办,互联网普惠金融研究院合办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟协
数据猿
2018/04/24
3.8K0
【案例】恒丰银行——基于大数据技术的数据仓库应用建设
【盘点】十大最受欢迎的开源大数据技术
导读:大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术 十大开
钱塘数据
2018/03/01
1.8K0
【盘点】十大最受欢迎的开源大数据技术
大数据工程师手册:全面系统的掌握必备知识与工具
如何才能成为一名真正的“全栈(full-stack)”数据科学家?需要了解哪些知识?掌握哪些技能?
AI科技大本营
2019/09/17
5510
大数据工程师手册:全面系统的掌握必备知识与工具
五分钟学后端技术:一篇文章教你读懂大数据技术栈!
链接:https://www.zhihu.com/question/27696290/answer/381993207
程序员黄小斜
2020/04/01
1.1K0
后 Hadoop 时代的大数据技术思考:数据即服务
1. Hadoop 的神话正在破灭 IBM leads BigInsights for Hadoop out behind barn. Shots heard IBM has announced the retirement of the basic plan for its data analytics software platform, BigInsights for Hadoop. The basic plan of the service will be retired in a mont
CSDN技术头条
2018/02/06
8920
后 Hadoop 时代的大数据技术思考:数据即服务
大数据技术概述
大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。
Francek Chen
2025/01/22
1.4K0
大数据技术概述
大数据技术栈详解
相信很多学Java的同学都有想转大数据或者学大数据的想法,但是一看到网上那些大数据的技术栈,就一脸懵逼,什么Hadoop、HDFS、MapReduce、Hive、Kafka、Zookeeper、HBase、Sqoop、Flume、Spark、Storm、Flink等等技术。
林老师带你学编程
2020/04/13
3.9K0
什么是大数据?你需要知道的…..
我们每天都在吃饭,睡觉,工作,玩耍,与此同时产生大量的数据。根据IBM调研的说法,人类每天生成2.5亿(250亿)字节的数据。 这相当于一堆DVD数据从地球到月球的距离,涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等。
IT阅读排行榜
2018/08/17
6390
15种值得你了解的大数据技术
提供大数据解决方案的技术供应商列表似乎是无限的。现在,许多特别流行的大数据解决方案都属于以下15种类别之一,我们一起来看看吧:
加米谷大数据
2020/06/02
1.8K0
15种值得你了解的大数据技术
相关推荐
【学习】一文读懂大数据(下)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档