Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据科普文一篇

大数据科普文一篇

作者头像
震八方紫面昆仑侠
发布于 2020-12-02 02:29:23
发布于 2020-12-02 02:29:23
1.1K0
举报

大数据和Hadoop平台介绍

定义

大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。大数据要满足三个基本特征(3V),数据量(volume)、数据多样性(variety)和高速(velocity)。数据量指大数据要处理的数据量一般达到TB甚至PB级别。数据多样性指处理的数据包括结构化数据、非结构化数据(视频、音频、网页)和半结构化数据(xml、html)。高速指大数据必须能够快速流入并且能得到快速处理。

大数据发展背景

数据爆炸。伴随信息技术的应用,全球数据量呈几何级数增长。过去几年间的数据总量超过了人类历史上的数据总和。芯片、摄像头、各自传感器遍布世界各个角落,原本不能被感知的事物都可以被监测。软硬件技术的不断进步,也为处理大数据创造的条件。

大数据的应用领域

  • 在公共领域,跨部门提供大数据服务,能大幅减少检索和处理时间。提高公共服务的效率。
  • 企业通过收集产品在使用中产生的海量数据,进行分析,可以改善产品性能。
  • 大数据能帮助企业对用户进行更加细化的区分,并针对用户的不同需求提供个性化的服务。这是营销和危机管理常用的办法。
  • 利用自动化算法支持或替代人工决策。对大数据的分析能极大改善决策效果,降低风险,并挖掘出其他方法无法发现的宝贵信息。
  • 商业模式、产品与服务创新。Netflix根据大数据分析结果,制作《纸牌屋》。

大数据研究课题

  1. 数据获取问题。包括哪些数据需要保存,哪些数据需要丢弃,如何可靠的存储我们需要的数据。
  2. 数据结构问题。微博博客是没有结构的数据,图像和视频在存储和显示方面具有结构,但是无法包含语义信息进行检索。如果将没有语义的内容转换为结构化的格式,并进行后续处理,是需要面对的另一项挑战。
  3. 数据集成问题。不同来源数据之间进行关联,才能充分发挥数据的作用。
  4. 数据分析、组织、抽取和建模
  5. 如何呈现分析结果

科技公司大数据产品

  • 谷歌:MapReduce
  • IBM:InfoSphere大数据分析平台
  • SAS:高性能分析服务器和SAS DataFlux数据流处理引擎
  • EMC:Greenplum 支持海量并行处理
  • Teradata:Aster Data 基于MapReduce,提供了多种统计软件包

大数据发展趋势

  • 数据资源化。大数据成为企业和社会关注的重要战略资源,并已经成为大家争相抢夺的焦点。
  • 云计算深度结合。大数据离不开云处理,云处理为大数据提供弹性可拓展的基础服务。
  • 带动科学理论的突破。带动数据挖掘、机器学习人工智能和数据科学等相关技术的发展。

大数据处理一般步骤

  1. 数据的收集。 第一个方式是抓取或者爬取。例如搜索引擎就是这么做的:它把网上的所有的信息都下 载到它的数据中心,然后你一搜才能搜出来。第二个方式是推送,有很多终端可以帮我收集数据。比如说小米手环,可以将你每天跑 步的数据,心跳的数据,睡眠的数据都上传到数据中心里面。
  2. 数据的传输 一般会通过队列方式进行,因为数据量实在是太大了,数据必须经过处理才会有用。可系统处理不过来,只好排好队,慢慢处理。
  3. 数据的存储 存储要确保安全,不易丢失,高容错性。
  4. 数据的处理和分析 存储的数据是原始数据,原始数据多是杂乱无章的,有很多垃圾数据在里面,因而需要清洗和过滤,得到一些高质量的数据。对于高质量的数据,就可以进行分析,从而对数据进行分类,或者发现数据之间的相互关系,得到知识。
  5. 数据的检索和挖掘 使想要的信息容易被搜索到。挖掘信息之间的相互关系。

开源框架

因为大数据的这些特点,针对其收集、传输、存储、处理分析和检索使用产生了许多开源框架。

功能

框架

文件存储

Hadoop HDFS、Tachyon、KFS

离线计算

Hadoop MapReduce、Spark

流式、实时计算

Storm、Spark Streaming、S4、Heron

K-V、NOSQL数据库

HBase、Redis、MongoDB

资源管理

YARN、Mesos

日志收集

Flume、Scribe、Logstash、Kibana

消息系统

Kafka、StormMQ、ZeroMQ、RabbitMQ

查询分析

Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式协调服务

Zookeeper

集群管理与监控

Ambari、Ganglia、Nagios、Cloudera Manager

数据挖掘、机器学习

Mahout、Spark MLLib

数据同步

Sqoop

任务调度

Oozie

一般大数据平台的框架如下图

Hadoop HDFS和Hadoop MapReduce作为大数据存储和处理的开山鼻祖,大数据平台上都处于核心位置。下面介绍一下两个框架的基本原理。

Hadoop HDFS基本原理

HDFS全称Hadoop Distributed File System。HDFS是一个分布式文件系统,可以部署在一个服务器集群上。Java语言开发,可以部署在任何支撑java的机器上。 HDFS有几个基本概念NameNode、DataNode和block。 NameNode负责整个分布式文件系统的元数据管理,也就是文件路径名,数据block的ID以及存储位置等信息。还要记录一些事情,比如哪些节点是集群的一部分,某个block有几份副本等。

DataNode是实际存储文件数据的节点。DataNode会通过心跳和NameNode保持通信,如果DataNode超时未发送心跳,NameNode就会认为这个DataNode已经失效,立即查找这个DataNode上存储的block有哪些,以及这些block还存储在哪些服务器上,随后通知这些服务器再复制一份block到其他服务器上,保证HDFS存储的block备份数符合用户设置的数目,即使再有服务器宕机,也不会丢失数据。

Block是HDFS中的存储单元,文件被写入HDFS时,会被切分成多个block块,默认的块大小是128MB,每个数据块默认会有三个副本。

数据写入:首先将文件分成多个block,每个block会被写入三个DataNode中,写入哪三个DataNode中是由NameNode指定的,写入完成,NameNode会记录这些信息。同一个文件中不同的block可能会被写入完全不同的DataNode中。

数据读取:数据读取时按block读取。每一个block时,会从NameNode获取信息,知道从哪个DataNode中读取,一般是就近原则。所有该文件的block读取完成,构成完整的文件。 客户端和Datanode是同一个机器:距离为0 ,表示最近 客户端和Datanode是同一个机架的不同机器 :距离为2 ,稍微远一点 客户端和Datanode位于同一个数据中心的不同机架上 :距离为4,更远一点

Hadoop MapReduce基本原理

Hadoop MapReduce是一个分布式计算框架,其中的运算都可以在多个机器上并行进行。使用者只需要完成运算本身的编码,不需要关心并行计算的底层细节。 MapReduce背后的思想很简单,就是把一些数据通过Map来归类,通过Reduce来把同一类的数据进行处理。Map和reduce的过程都是利用集群的计算能力并行执行的。计算模型的核心是Map和Reduce函数,两个函数由用户自行实现。

把原始大数据集切割成小数据集时,通常小数据集小于等于HDFS的一个block的大小,这样一个小数据集位于一个物理机上,便于本地计算。Map和reduce各自的启动任务数量可以由用户指定。

上图表示一个MapReduce统计单词出现次数的过程,原始数据分割为4个子文件,对每个子文件按照用户的Map函数会产生<单词, 出现次数>的<k2,v2>形式的结果。然后把相同单词的<k2,v2>组合在一起构成<k2,List(v2)>的形式,作为Reduce函数的输入,相同的k2一定分发给相同的Reduce任务处理,例如单词lorem的所有计算都由第一个Reduce任务来完成。按照这个思想,即使要统计的文件数量上千万个,单词数量有几千个,但是通过MapReduce框架,只要集群机器数量够多,也是可以在可接受时间内计算完成的。

大数据行业应用

  • 互联网:定向广告、用户行为分析、内容推荐、搜索引擎优化
  • 金融:反洗钱、反欺诈、客户价值分析、目标市场客户聚类、偿还能力预测、股票投资组合趋势分析
  • 电信:业务设计优化、客户流失预测、网络质量优化
  • 医疗卫生:临床数据比对、决策支持、就诊行为分析、疾病模式分析
  • 公共安全:嫌疑人行为预测分析、恐怖活动检测、危险性分析、关系人分析
  • 智慧交通:整个传感器、GPS和健康视频等设备产生的海量数据,结合气象监测设备的天气状况数据、人口分布数据、移动通信数据,实现智能公共交通。

推广使用面临的挑战

  • 少数机构对数据绝对垄断,大部分数据集中在这些机构内部。就像罕见病数据,只有通过共享机制和平台,才能为患者提供帮助。
  • 大数据应用应该以尊重用户隐私为前提,同时如何兼顾数据的开放和创新,是大数据行业面临的一个重要问题。企业通过大数据来理解用户的特点和需求,需要充分尊重他们的隐私权。
  • 现有的大数据架构无法保证数据本身不被篡改,因而限制了需要建立信任和确权的应用场景。诸如信用类的数据,如果没有办法确保数据的真实有效性,则很难运用在相关机构的决策流程中。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MySQL从删库到跑路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
初识大数据与Hadoop
在大数据时代,基于大数据技术的职位更有钱途,因此成为很多人的职业首选。在大数据技术中,大家常常听到 Hadoop,很多刚开始接触的人会问,什么是 Hadoop?它有什么作用?下面笔者就跟大家唠叨唠叨。
数据森麟
2021/03/09
5940
初识大数据与Hadoop
大数据学习之路05——Hadoop原理与架构解析
Hadoop 是 Apache 开源组织的一个分布式计算开源框架,是一个可以更容易开发和运行处理大规模数据的解决方案,它提供了一套分布式系统基础架构,允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。
汪志宾
2019/05/24
8.5K0
大数据学习之路05——Hadoop原理与架构解析
什么是大数据
进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024PB)级别。
用户3391135
2018/11/12
1.2K0
0基础搭建Hadoop大数据处理-初识
  在互联网的世界中数据都是以TB、PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示。 大数据什么叫大?4个特征: 体量化 Volume,就是量大。 多样化 Variety,可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等 快速化 Velocity,产生快,处理也需要快。 价值密度低 Value,数据量大,但单个数据没什么意义,需要宏观的统计体现其隐藏的价值。
欢醉
2018/01/22
1.1K0
0基础搭建Hadoop大数据处理-初识
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
2021年初的时候,关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病,因为其并不友好的写代码方式,高昂的维护成本以及较差的运行效率。
大数据真好玩
2021/09/18
6440
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
【大数据相关名词】Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
统计学家
2019/04/10
7220
大数据Hadoop生态圈各个组件介绍(详情)
-coordination and management(协调与管理) -query(查询) -data piping(数据管道) -core hadoop(核心hadoop) -machine learning(机器学习) -nosql database(nosql数据库)
全栈程序员站长
2022/08/31
5.1K0
大数据Hadoop生态圈各个组件介绍(详情)
大数据Hadoop生态圈介绍
Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。
全栈程序员站长
2022/08/25
1K0
大数据Hadoop生态圈介绍
2021最全大数据面试题汇总---hadoop篇,附答案!
1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。 4)Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据档映射为一张数据库表,并提供简单的sql 查询功能,可以将sql语句转换为MapReduce任务进行运行。 5)Sqoop:将一个关系型数据库中的数据导进到Hadoop的 HDFS中,也可以将HDFS的数据导进到关系型数据库中。
大数据小禅
2021/08/16
4.5K0
大数据学习带你了解Hadoop如何高效处理大数据
Hadoop与Google一样,都是小孩命名的,是一个虚构的名字,没有特别的含义。从计算机专业的角度看,Hadoop是一个分布式系统基础架构,由Apache基金会开发。Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。设想一个场景,假如您需要grep一个100TB的大数据文件,按照传统的方式,会花费很长时间,而这正是Hadoop所需要考虑的效率问题。
用户2292346
2018/07/01
7060
大数据概况及Hadoop生态系统总结
大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
全栈程序员站长
2022/08/30
6540
大数据概况及Hadoop生态系统总结
Hadoop大数据初学者指南
Hadoop是一个开源框架,允许在分布式环境中使用简单的编程模型来存储和处理大数据,跨计算机集群。它被设计成可以从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。
yeedomliu
2023/09/03
3270
Hadoop大数据初学者指南
一文了解大数据生态体系-Hadoop
大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理 和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程 优化能力的海量、高增长率和多样化的信息资产。
架构狂人
2023/08/16
8870
一文了解大数据生态体系-Hadoop
深入浅出大数据:到底什么是Hadoop?
1998年9月4日,Google公司在美国硅谷成立。正如大家所知,它是一家做搜索引擎起家的公司。
鲜枣课堂
2019/07/22
6590
深入浅出大数据:到底什么是Hadoop?
Hadoop极简教程
学习大数据必先学习Hadoop,因为它是目前世界上最流行的分布式数据处理框架。 Tips:所谓大数据,是指数据量庞大、产生数度快、结构多样的价值密度低的数据。其中,数据量庞大是指数据规模超出了1,2台高性能主机所能处理范围;结构多样性是指除了关系型数据库能够处理的结构化数据还包含半结构化数据(如各类传感设备必如地镑、卫星、GPS设备等产生的纯文本格式的数据,还有良心网站NASA官网公布的txt格式的空间天气数据等成行成列的数据)和非结构化数据(视频、图像等)。这些数据的价值密度普遍较低(和具体的应用范围也有
架构师小秘圈
2018/04/02
2.8K0
Hadoop极简教程
大数据是什么?
大数据是指海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。
木可大大
2018/07/25
9180
大数据是什么?
Hadoop大数据技术课程总结2021-2022学年第1学期
数据量大Volume 第一个特征是数据量大。大数据的起始计量单位可以达到P(1000个T)、E(100万个T)或Z(10亿个T)级别。 类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 价值密度低(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值"提纯",是大数据时代亟待解决的难题。 速度快、时效高(Velocity) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
用户2225445
2022/11/12
5730
Hadoop大数据技术课程总结2021-2022学年第1学期
进击大数据系列(一):Hadoop 基本概念与生态介绍
大数据(big data),指的是在一定时间范围内不能以常规软件工具处理(存储和计算)的大而复杂的数据集。说白了大数据就是使用单台计算机没法在规定时间内处理完,或者压根就没法处理的数据集。
民工哥
2023/08/22
2.8K0
进击大数据系列(一):Hadoop 基本概念与生态介绍
大数据技术笔试题库
12、在MapTask的Combine阶段,当处理完所有数据时,MapTask会对所有的临时文件进行一次()。
杨校
2022/05/14
3K0
Hadoop教程(一) Hadoop入门教程「建议收藏」
Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/),用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS实现存储,而MapReduce实现原理分析处理,这两部分是hadoop的核心。数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果,它是一个高性能处理海量数据集的工具 。
全栈程序员站长
2022/08/11
1.5K0
Hadoop教程(一) Hadoop入门教程「建议收藏」
相关推荐
初识大数据与Hadoop
更多 >
LV.0
这个人很懒,什么都没有留下~
加入讨论
的问答专区 >
1产品KOL擅长5个领域
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档