Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据科普文一篇

大数据科普文一篇

作者头像
震八方紫面昆仑侠
发布于 2020-12-02 02:29:23
发布于 2020-12-02 02:29:23
1.1K0
举报

大数据和Hadoop平台介绍

定义

大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。大数据要满足三个基本特征(3V),数据量(volume)、数据多样性(variety)和高速(velocity)。数据量指大数据要处理的数据量一般达到TB甚至PB级别。数据多样性指处理的数据包括结构化数据、非结构化数据(视频、音频、网页)和半结构化数据(xml、html)。高速指大数据必须能够快速流入并且能得到快速处理。

大数据发展背景

数据爆炸。伴随信息技术的应用,全球数据量呈几何级数增长。过去几年间的数据总量超过了人类历史上的数据总和。芯片、摄像头、各自传感器遍布世界各个角落,原本不能被感知的事物都可以被监测。软硬件技术的不断进步,也为处理大数据创造的条件。

大数据的应用领域

  • 在公共领域,跨部门提供大数据服务,能大幅减少检索和处理时间。提高公共服务的效率。
  • 企业通过收集产品在使用中产生的海量数据,进行分析,可以改善产品性能。
  • 大数据能帮助企业对用户进行更加细化的区分,并针对用户的不同需求提供个性化的服务。这是营销和危机管理常用的办法。
  • 利用自动化算法支持或替代人工决策。对大数据的分析能极大改善决策效果,降低风险,并挖掘出其他方法无法发现的宝贵信息。
  • 商业模式、产品与服务创新。Netflix根据大数据分析结果,制作《纸牌屋》。

大数据研究课题

  1. 数据获取问题。包括哪些数据需要保存,哪些数据需要丢弃,如何可靠的存储我们需要的数据。
  2. 数据结构问题。微博博客是没有结构的数据,图像和视频在存储和显示方面具有结构,但是无法包含语义信息进行检索。如果将没有语义的内容转换为结构化的格式,并进行后续处理,是需要面对的另一项挑战。
  3. 数据集成问题。不同来源数据之间进行关联,才能充分发挥数据的作用。
  4. 数据分析、组织、抽取和建模
  5. 如何呈现分析结果

科技公司大数据产品

  • 谷歌:MapReduce
  • IBM:InfoSphere大数据分析平台
  • SAS:高性能分析服务器和SAS DataFlux数据流处理引擎
  • EMC:Greenplum 支持海量并行处理
  • Teradata:Aster Data 基于MapReduce,提供了多种统计软件包

大数据发展趋势

  • 数据资源化。大数据成为企业和社会关注的重要战略资源,并已经成为大家争相抢夺的焦点。
  • 云计算深度结合。大数据离不开云处理,云处理为大数据提供弹性可拓展的基础服务。
  • 带动科学理论的突破。带动数据挖掘、机器学习人工智能和数据科学等相关技术的发展。

大数据处理一般步骤

  1. 数据的收集。 第一个方式是抓取或者爬取。例如搜索引擎就是这么做的:它把网上的所有的信息都下 载到它的数据中心,然后你一搜才能搜出来。第二个方式是推送,有很多终端可以帮我收集数据。比如说小米手环,可以将你每天跑 步的数据,心跳的数据,睡眠的数据都上传到数据中心里面。
  2. 数据的传输 一般会通过队列方式进行,因为数据量实在是太大了,数据必须经过处理才会有用。可系统处理不过来,只好排好队,慢慢处理。
  3. 数据的存储 存储要确保安全,不易丢失,高容错性。
  4. 数据的处理和分析 存储的数据是原始数据,原始数据多是杂乱无章的,有很多垃圾数据在里面,因而需要清洗和过滤,得到一些高质量的数据。对于高质量的数据,就可以进行分析,从而对数据进行分类,或者发现数据之间的相互关系,得到知识。
  5. 数据的检索和挖掘 使想要的信息容易被搜索到。挖掘信息之间的相互关系。

开源框架

因为大数据的这些特点,针对其收集、传输、存储、处理分析和检索使用产生了许多开源框架。

功能

框架

文件存储

Hadoop HDFS、Tachyon、KFS

离线计算

Hadoop MapReduce、Spark

流式、实时计算

Storm、Spark Streaming、S4、Heron

K-V、NOSQL数据库

HBase、Redis、MongoDB

资源管理

YARN、Mesos

日志收集

Flume、Scribe、Logstash、Kibana

消息系统

Kafka、StormMQ、ZeroMQ、RabbitMQ

查询分析

Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式协调服务

Zookeeper

集群管理与监控

Ambari、Ganglia、Nagios、Cloudera Manager

数据挖掘、机器学习

Mahout、Spark MLLib

数据同步

Sqoop

任务调度

Oozie

一般大数据平台的框架如下图

Hadoop HDFS和Hadoop MapReduce作为大数据存储和处理的开山鼻祖,大数据平台上都处于核心位置。下面介绍一下两个框架的基本原理。

Hadoop HDFS基本原理

HDFS全称Hadoop Distributed File System。HDFS是一个分布式文件系统,可以部署在一个服务器集群上。Java语言开发,可以部署在任何支撑java的机器上。 HDFS有几个基本概念NameNode、DataNode和block。 NameNode负责整个分布式文件系统的元数据管理,也就是文件路径名,数据block的ID以及存储位置等信息。还要记录一些事情,比如哪些节点是集群的一部分,某个block有几份副本等。

DataNode是实际存储文件数据的节点。DataNode会通过心跳和NameNode保持通信,如果DataNode超时未发送心跳,NameNode就会认为这个DataNode已经失效,立即查找这个DataNode上存储的block有哪些,以及这些block还存储在哪些服务器上,随后通知这些服务器再复制一份block到其他服务器上,保证HDFS存储的block备份数符合用户设置的数目,即使再有服务器宕机,也不会丢失数据。

Block是HDFS中的存储单元,文件被写入HDFS时,会被切分成多个block块,默认的块大小是128MB,每个数据块默认会有三个副本。

数据写入:首先将文件分成多个block,每个block会被写入三个DataNode中,写入哪三个DataNode中是由NameNode指定的,写入完成,NameNode会记录这些信息。同一个文件中不同的block可能会被写入完全不同的DataNode中。

数据读取:数据读取时按block读取。每一个block时,会从NameNode获取信息,知道从哪个DataNode中读取,一般是就近原则。所有该文件的block读取完成,构成完整的文件。 客户端和Datanode是同一个机器:距离为0 ,表示最近 客户端和Datanode是同一个机架的不同机器 :距离为2 ,稍微远一点 客户端和Datanode位于同一个数据中心的不同机架上 :距离为4,更远一点

Hadoop MapReduce基本原理

Hadoop MapReduce是一个分布式计算框架,其中的运算都可以在多个机器上并行进行。使用者只需要完成运算本身的编码,不需要关心并行计算的底层细节。 MapReduce背后的思想很简单,就是把一些数据通过Map来归类,通过Reduce来把同一类的数据进行处理。Map和reduce的过程都是利用集群的计算能力并行执行的。计算模型的核心是Map和Reduce函数,两个函数由用户自行实现。

把原始大数据集切割成小数据集时,通常小数据集小于等于HDFS的一个block的大小,这样一个小数据集位于一个物理机上,便于本地计算。Map和reduce各自的启动任务数量可以由用户指定。

上图表示一个MapReduce统计单词出现次数的过程,原始数据分割为4个子文件,对每个子文件按照用户的Map函数会产生<单词, 出现次数>的<k2,v2>形式的结果。然后把相同单词的<k2,v2>组合在一起构成<k2,List(v2)>的形式,作为Reduce函数的输入,相同的k2一定分发给相同的Reduce任务处理,例如单词lorem的所有计算都由第一个Reduce任务来完成。按照这个思想,即使要统计的文件数量上千万个,单词数量有几千个,但是通过MapReduce框架,只要集群机器数量够多,也是可以在可接受时间内计算完成的。

大数据行业应用

  • 互联网:定向广告、用户行为分析、内容推荐、搜索引擎优化
  • 金融:反洗钱、反欺诈、客户价值分析、目标市场客户聚类、偿还能力预测、股票投资组合趋势分析
  • 电信:业务设计优化、客户流失预测、网络质量优化
  • 医疗卫生:临床数据比对、决策支持、就诊行为分析、疾病模式分析
  • 公共安全:嫌疑人行为预测分析、恐怖活动检测、危险性分析、关系人分析
  • 智慧交通:整个传感器、GPS和健康视频等设备产生的海量数据,结合气象监测设备的天气状况数据、人口分布数据、移动通信数据,实现智能公共交通。

推广使用面临的挑战

  • 少数机构对数据绝对垄断,大部分数据集中在这些机构内部。就像罕见病数据,只有通过共享机制和平台,才能为患者提供帮助。
  • 大数据应用应该以尊重用户隐私为前提,同时如何兼顾数据的开放和创新,是大数据行业面临的一个重要问题。企业通过大数据来理解用户的特点和需求,需要充分尊重他们的隐私权。
  • 现有的大数据架构无法保证数据本身不被篡改,因而限制了需要建立信任和确权的应用场景。诸如信用类的数据,如果没有办法确保数据的真实有效性,则很难运用在相关机构的决策流程中。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MySQL从删库到跑路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Hadoop生态系统介绍「建议收藏」
Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有 可靠、高效、可伸缩的特点。
全栈程序员站长
2022/08/26
1.2K0
Hadoop生态系统介绍「建议收藏」
hadoop生态圈各个组件简介
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。
全栈程序员站长
2022/08/31
1.1K0
hadoop生态圈各个组件简介
进击大数据系列(一):Hadoop 基本概念与生态介绍
大数据(big data),指的是在一定时间范围内不能以常规软件工具处理(存储和计算)的大而复杂的数据集。说白了大数据就是使用单台计算机没法在规定时间内处理完,或者压根就没法处理的数据集。
民工哥
2023/08/22
2.8K0
进击大数据系列(一):Hadoop 基本概念与生态介绍
大数据Hadoop生态圈各个组件介绍(详情)
-coordination and management(协调与管理) -query(查询) -data piping(数据管道) -core hadoop(核心hadoop) -machine learning(机器学习) -nosql database(nosql数据库)
全栈程序员站长
2022/08/31
5.2K0
大数据Hadoop生态圈各个组件介绍(详情)
大数据学习之路05——Hadoop原理与架构解析
Hadoop 是 Apache 开源组织的一个分布式计算开源框架,是一个可以更容易开发和运行处理大规模数据的解决方案,它提供了一套分布式系统基础架构,允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。
汪志宾
2019/05/24
8.5K0
大数据学习之路05——Hadoop原理与架构解析
Hadoop极简教程
学习大数据必先学习Hadoop,因为它是目前世界上最流行的分布式数据处理框架。 Tips:所谓大数据,是指数据量庞大、产生数度快、结构多样的价值密度低的数据。其中,数据量庞大是指数据规模超出了1,2台高性能主机所能处理范围;结构多样性是指除了关系型数据库能够处理的结构化数据还包含半结构化数据(如各类传感设备必如地镑、卫星、GPS设备等产生的纯文本格式的数据,还有良心网站NASA官网公布的txt格式的空间天气数据等成行成列的数据)和非结构化数据(视频、图像等)。这些数据的价值密度普遍较低(和具体的应用范围也有
架构师小秘圈
2018/04/02
2.8K0
Hadoop极简教程
【大数据】最新大数据学习路线(完整详细版,含整套教程)
大家好,又见面了,我是你们的朋友全栈君。 大数据学习路线 java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) Spark(scala,spark,spark core,spark sql,spark streaming,spark
全栈程序员站长
2022/06/28
5850
2021最全大数据面试题汇总---hadoop篇,附答案!
1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。 4)Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据档映射为一张数据库表,并提供简单的sql 查询功能,可以将sql语句转换为MapReduce任务进行运行。 5)Sqoop:将一个关系型数据库中的数据导进到Hadoop的 HDFS中,也可以将HDFS的数据导进到关系型数据库中。
大数据小禅
2021/08/16
4.5K0
一文了解大数据生态体系-Hadoop
大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理 和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程 优化能力的海量、高增长率和多样化的信息资产。
架构狂人
2023/08/16
8920
一文了解大数据生态体系-Hadoop
hadoop大数据面试题
以下资料来源于互联网,很多都是面试者们去面试的时候遇到的问题,我对其中有的问题做了稍许的修改了回答了部分空白的问题,其中里面有些考题出的的确不是很好,但是也不乏有很好的题目,这些都是基于真实的面试来的,希望对即将去面试或向继续学习hadoop,大数据等的朋友有帮助!
风火数据
2018/08/26
1.8K0
hadoop大数据面试题
什么是大数据
进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024PB)级别。
用户3391135
2018/11/12
1.2K0
大数据Hadoop生态圈介绍
Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。
全栈程序员站长
2022/08/25
1K0
大数据Hadoop生态圈介绍
Hadoop教程(一) Hadoop入门教程「建议收藏」
Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/),用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS实现存储,而MapReduce实现原理分析处理,这两部分是hadoop的核心。数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果,它是一个高性能处理海量数据集的工具 。
全栈程序员站长
2022/08/11
1.5K0
Hadoop教程(一) Hadoop入门教程「建议收藏」
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
2021年初的时候,关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病,因为其并不友好的写代码方式,高昂的维护成本以及较差的运行效率。
大数据真好玩
2021/09/18
6470
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
Hadoop与Spark等大数据框架介绍[通俗易懂]
海量数据的存储问题很早就已经出现了,一些行业或者部门因为历史的积累,数据量也达到了一定的级别。很早以前,当一台电脑无法存储这么庞大的数据时,采用的解决方案是使用NFS(网络文件系统)将数据分开存储。但是这种方法无法充分利用多台计算机同时进行分析数据。
全栈程序员站长
2022/08/10
1.6K0
Hadoop与Spark等大数据框架介绍[通俗易懂]
大数据技术笔试题库
12、在MapTask的Combine阶段,当处理完所有数据时,MapTask会对所有的临时文件进行一次()。
杨校
2022/05/14
3K0
菜鸟的Hadoop快速入门
大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
数澜科技
2019/09/23
5700
菜鸟的Hadoop快速入门
0基础搭建Hadoop大数据处理-初识
  在互联网的世界中数据都是以TB、PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示。 大数据什么叫大?4个特征: 体量化 Volume,就是量大。 多样化 Variety,可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等 快速化 Velocity,产生快,处理也需要快。 价值密度低 Value,数据量大,但单个数据没什么意义,需要宏观的统计体现其隐藏的价值。
欢醉
2018/01/22
1.1K0
0基础搭建Hadoop大数据处理-初识
HADOOP生态圈知识概述
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。
全栈程序员站长
2022/08/31
2.7K0
HADOOP生态圈知识概述
菜鸟的Hadoop快速入门「建议收藏」
大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
全栈程序员站长
2022/09/02
5260
相关推荐
Hadoop生态系统介绍「建议收藏」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档