前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深入浅出学大数据(一)大数据发展历程及大数据的简单介绍

深入浅出学大数据(一)大数据发展历程及大数据的简单介绍

作者头像
不温卜火
发布2021-09-29 15:07:57
4.2K0
发布2021-09-29 15:07:57
举报
文章被收录于专栏:不温卜火

  大家好,我是不温卜火,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!博客主页:https://buwenbuhuo.blog.csdn.net/

目录


前言

此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~

本文主要介绍了大数据发展历程及大数据的简单介绍,包括促进大数据时代到来的动因、大数据简介、大数据开发的一般过程、大数据的应用场景以及未来展望。

一、大数据时代到来的动因

1.1 第三次信息化浪潮

根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。在2010年前后爆发的第三次信息化浪潮期间,由于信息逐渐增加,为了解决信息爆炸问题,物联网、云计算和大数据相继兴起了起来。下图为三次信息化浪潮发生时间、标志、解决问题以及代表企业。

1.2 信息科技为大数据时代提供技术支撑

1.2.1 存储设备容量不断增加

根据上图我们可以清晰的看出存储价格随着时间的变化而变化。

1.2.2 CPU处理能力大幅提升

根据上图我们可以清晰的看到CPU晶体管数目随着时间的变化而变化。

1.3.1 网络带宽不断增加

根据上图我们可以清晰的看到网络带宽随着时间的变化而变化。

在信息化基础设施方面,据工业和信息化部官网消息,截至2019年12月底,我国互联网宽带接入端口数量达9.16亿个,其中,光纤接入端口占互联网接入端口的比重达91.3%;光缆线路总长度已达4750万公里,相当于在京沪高铁线上往返1.8万余次。同时,近五年来固定宽带和移动宽带资费平均下降90%,速率提升6倍。目前,我国已基本实现“城市光纤到楼入户,农村宽带进乡入村”。

据中国信息通信研究院(简称中国信通院)数据,截至2020年2月底,全国建设开通5G基站达16.4万个,5G网络建设基础不断夯实。2020年中国将建设60万~80万个5G基站。

1.3 数据生产方式的变革促成大数据时代的来临

二、大数据的简单介绍

2.1 大数据的定义

大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.2 大数据的特点(5V)

  • 1、大量 采集、存储和计算的数据量都非常大。 随着科学技术的发展和互联网的普及,全球的数据量已经大到爆了,而传统的关系型数据库根本处理不了如此海量的数据。 截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
  • 2、高速 根据IDC的“数字宇宙”的报告,预计到2025年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。 在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。
  • 3、多样 数据形式和来源多样化,包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。其数据类型按照分类可划分为: ①结构化数据: Excel文件、csv文件等。 结构化数据为表格形式的数据:每列数据类型相同,切不可再细分。 ②半结构化数据: 邮件、网页、JSON文件、日志文件等。 这些数据的结构和内容混在一起,没有明显的区分。 ③非结构化数据: 图片、视频等
  • 4、真实 确保数据的真实性,才能保证数据分析的正确性。
  • 5、低价值 数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵 。 互联网发展催生了大量数据,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题,也是一个有难度的课题。

2.3 大数据的发展历程

2.4 大数据的关键技术

下图为大数据技术的不同层面及其功能的解释:

大数据的两大关键技术分别为:分布式存储分布式处理

2.5 大数据计算模式

2.6 大数据产业

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合

2.7 大数据与云计算、物联网的关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别,在此就不过多赘述云计算和物联网。如有兴趣可自行查阅相关资料。

2.8 大数据开发的一般过程

如果说公司有需求,比如说双十一实时大屏功能的实现:

下图为实现过程分析:

如果我们想要完整实现的话,一般需要经过以下几个步骤:

下面分别介绍下这几个过程所用到的工具及其简单介绍。

关于数据存储和数据清洗的问题,可以采用原始的先存储后清洗,也可以先进行数据清洗,然后进行数据存储。

2.8.1 数据采集

数据采集:又称数据获取,从传感器和互联网等渠道自动采集信息的过程。

下面为一些常见的数据采集工具:

1️⃣ 普通 1、python网络爬虫

Urllib:HTTP请求库,用于请求、下载网页

Requests:基于Urllib,但更加快捷方便

Scrapy:爬虫框架,用于从网页中提取数据

2、Webmagic(Java):垂直爬虫框架,简单爬虫开发流程,专注于逻辑功能的开发。

3、BotnetSpider(C#):国人开源的跨平台、高性能、轻量级爬虫软件,.NET最为优秀的开源爬虫之一

2️⃣分布式采集工具

1、Chukwa(hadoop):用于监控大型分布式系统的数据收集系统,构建在HDFS和Mapreduce之上。

2、Kafka:由Apache开源,高吞吐量的分布式发布订阅消息系统。

3、Flume:分布式的海量日志采集、集合和传输系统。

2.8.2 数据存储

🔍数据存储:数据以某种格式记录在计算机内部或外部存储介质上。

🔍数据存储不一定是以文件的形式存储,它可以是以数据库的形式进行存储,由数据库决定,怎样写入到文件中或者怎样保存在内存中。

下列为常见的数据库系统: 1️⃣ 关系型数据库(SQL) 1、MySQL(小型数据库):最流行的关系型数据库管理系统之一,将数据保存于不同表中。

2、Oracle(大型数据库):甲骨文公司数据库管理系统,高效率、可靠性高、适应高吞吐量。

3、SQL Server:Microsoft公司的数据库管理系统,使用方便、可伸缩性好、与相关软件集成程度高。

2️⃣ 非关系型数据库(NOSQL) 1、Hbase:高可靠性、高性能、可伸缩的分布式存储系统,可在PC Server上搭建大规模结构化存储集群。

2、MongoDB:介于关系型数据库和非关系型数据库之间的产品,功能丰富;基于分布式文件存储数据库,由C++编写。

3、Redis:一个日志型、高性能Key-Value数据库,数据可以从主服务器向任意数量的从服务器同步。

2.8.3 数据清洗

数据清洗:为了便于后续的处理和分析,对数据进行的质量诊断、数据整合、数据转换、缺失值处理和异常值处理等操作。

🔍数据清洗的方法

1、缺失值处理:对存在缺失的数据进行插补

2、异常值处理:对数据集中存在的不合理值进行处理

3、数据转换:将数据从一种表现形式转换成另一种表现形式

🔍数据清洗的工具

1、Mapreduce(Hadoop):基于集群的高性能并行计算框架;并行计算与运行软件框架;并行程序设计模型与方法。

2、Pandas(Python):解决数据分析任务的Python库,提供了诸多数据清洗的函数和方法。

3、OpenRefine:数据清洗工具,能够对数据进行可视化操作,类似Excel,但其工作方式更像数据库。

2.8.4 数据分析

🔍利用机器学习等技术从数据中构建模型,从而挖掘出有价值的信息。

1️⃣数据分析的方法:机器学习

2️⃣数据分析的工具

1、Scikit-learn(Python):机器学习库,包含众多机器学习算法,使用方便。

2、Tensorflow:Google开源的深度学习技术,追随者众多,目前最火热的深度学习框架。

3、torch:Facebook力推的深度学习框架,具有较好的灵活性和速度,拥有Python版本Pytorch。

4、Spark:Apache开源的为大规模数据处理而设计的快速通过的计算引擎,拥有机器学习库Mllib。

2.8.5 数据可视化

数据可视化是将数据分析的过程与结果用图表等形式进行展示。

🔍数据可视化工具:

1、Matplotlib(Python):一个2D绘图库,可以绘制许多高质量的图形

2、Seaborn(Python):Matplotlib基础上的高级绘图库,运用简单的操作就能够画出较为复杂的图形

3、Tableau:一个强大的数据可视化工具,可实时进行可视化数据分析和数据探索

4、Echarts:由百度前端技术部开发的,基于Javascript的数据可视化图表库,提供直观、生动、可交互、可个性化定制的数据可视化图表

2.9 大数据的应用场景

随着大数据的发展,大数据技术已经广泛应用在众多行业,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹:

1️⃣ 抖音精准推荐:推荐的都是你喜欢的视频

2️⃣ 电商站内推荐:给用户推荐可能喜欢的商品

3️⃣ 电商零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。

  1. 零售业“啤酒+纸尿裤”案例
  1. 个性推荐
  1. “双11购物节”实时销售额大屏

4️⃣ 物流仓储:京东物流,上午下单下午送达、下午下单次日达

5️⃣ 保险 海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。

6️⃣ 金融 多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。

7️⃣ 房产 大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。

8️⃣汽车 利用了大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。

9️⃣生物医学 大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。比如影像大数据支撑下的早期肺癌支撑平台,基于大量病例数据样本,制定早期肺癌高危人群预警指标。

🔟 人工智能+5G+物联网+虚拟现实 人工智能的基础上就是大数据,在大量数据训练的基础上得到“经验”。 典型的例子是AlphaGo战胜人类棋手,因为AlphaGo已经经过了大量的下棋训练,训练得到了“下棋经验”。

除此之外还有电信以及只会城市的建设等等,大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

三、大数据的影响以及未来前景展望

3.1 大数据的影响

图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式

在思维方式方面,大数据完全颠覆了传统的思维方式: 👋全样而非抽样 👋效率而非精确 👋相关而非因果

💫在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现

💫在就业市场方面,大数据的兴起使得数据科学家成为热门职业

💫在人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制 大数据行业发展趋势的两个层面:国家层面和高校教育和就业层面。

3.2 大数据行业发展趋势的两个层面

3.2.1 国家层面

  1. 2015年党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。
  2. 2017年十九大报告明确 “推动互联网、大数据、人工智能和实体经济深度融合”。
  3. 2020年全国政协十三届三次会议新闻发布会上,更进一步强调:大数据、人工智能、5G是引领未来发展的战略性技术。除此之外中央还推出34万亿“新基建”投资计划,如下表所示:

项目

2020年投资规模(亿元)

5G

3000

特高压

600

轨道交通

5000

充电桩

100

数据中心

1000

人工智能

350

工业互联网

100

合计

10150

显然,发展大数据是我国的战略性决策,前景自然不言而喻。

3.2.2 高校教育和就业层面

2017年北京大学、中国人民大学等25所高校成功申请开设第一批大数据课程

大数据属于高新技术,大牛少,升职竞争小

2020年5月6日,人力资源和社会保障部发布《新职业—大数据工程技术人员就业景气现状分析报告》,报告显示:预计2020年中国大数据行业人才需求规模将达210万,2025年前大数据人才需求仍将保持30%~40%的增速,需求总量在2000万人左右。

在北京大数据开发工程师的平均薪水已经超越 1.5w 直逼2w,而且目前还保持强劲的发展势头,当然取得这个薪水的前提是要能力达标。

3.3 未来展望

现在大数据正处于下一个风口

💖2020年是5G的元年,国家在大力铺设5G设备,2021年就是5G手机应用的开始,也是大数据要爆发的1年。5G带来的是每秒钟10g的数据,会给每家公司都带来海量的数据。那么传统的Java工具根本解决不了海量数据的存储。就更不用说海量数据的计算了。如果你对5G的感触不够深,可以回忆一下3G和4G的区别。3G时只能打电话、发短信,当时还觉得很好,觉得3G不错。但是4G来了后,大家很少打电话和发短信了,都改为语音、视频、直播、网上购物等生活方式,带火了淘宝、京东、美团、字节跳动等企业。没有跟上节奏的百度,有点摇摇欲坠。当然百度ai还是很牛逼的。

3.4 大数据职业发展路线

目前大数据高、中、低三个档次的人才都很缺。 现在我们谈大数据,就像当年谈电商一样,未来前景已经很明确,接下来就是优胜劣汰,竞争上岗。不想当架构师的程序员不是好程序员!

大数据发展到现阶段,涉及大数据相关的职业岗位也越来越精细。从职业发展来看,由大数据开发、挖掘、算法、到架构。从级别来看,从工程师、高级工程师,再到架构师,甚至到科学家。而且,契合不同的行业领域,又有专属于这些行业的岗位衍生,如涉及金融领域的数据分析师等。

大数据的相关工作岗位有很多,有数据分析师、数据挖掘工程师、大数据开发工程师、大数据产品经理、可视化工程师、爬虫工程师、大数据运营经理、大数据架构师、数据科学家等等。

为了能够让各位能够对工作岗位有更加清晰的认知,特制作大数据组织部门结构图,如下图所示:

根据上图中的组织结构我们可以知道从事大数据岗位包括:

  • ETL工程师—数据清洗
  • 数据仓库工程师—数据仓库搭建
  • 实时流处理工程师
  • 用户画像工程师
  • 数据挖掘
  • 算法工程师

部分相关素材来源:

  1. 林子雨 大数据技术原理与应用(第3版)
  2. 尚硅谷 大海哥大数据Hadoop 3.X

本片文章到这里就结束了,如有不足请指出~

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/09/22 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目录
  • 前言
  • 一、大数据时代到来的动因
    • 1.1 第三次信息化浪潮
      • 1.2 信息科技为大数据时代提供技术支撑
        • 1.2.1 存储设备容量不断增加
        • 1.2.2 CPU处理能力大幅提升
        • 1.3.1 网络带宽不断增加
      • 1.3 数据生产方式的变革促成大数据时代的来临
      • 二、大数据的简单介绍
        • 2.1 大数据的定义
          • 2.2 大数据的特点(5V)
            • 2.3 大数据的发展历程
              • 2.4 大数据的关键技术
                • 2.5 大数据计算模式
                  • 2.6 大数据产业
                    • 2.7 大数据与云计算、物联网的关系
                      • 2.8 大数据开发的一般过程
                        • 2.8.1 数据采集
                        • 2.8.2 数据存储
                        • 2.8.3 数据清洗
                        • 2.8.4 数据分析
                        • 2.8.5 数据可视化
                      • 2.9 大数据的应用场景
                      • 三、大数据的影响以及未来前景展望
                        • 3.1 大数据的影响
                          • 3.2 大数据行业发展趋势的两个层面
                            • 3.2.1 国家层面
                            • 3.2.2 高校教育和就业层面
                          • 3.3 未来展望
                            • 3.4 大数据职业发展路线
                            相关产品与服务
                            数据库管理
                            数据库管理(Database Management Center,DMC)是一个高效,安全,可靠的数据库一站式管理平台。DMC 提供可视化的库管理、实例会话管理、SQL 窗口、SQL 安全审计、SQL 变更审批、实时监控、操作审计等数据库管理能力,集成诊断优化和数据可视化分析能力,从而简化和规范数据库管理操作、降低数据库运维门槛、提升运维效率。DMC 现已推出 2.0 新版,融合了原个人版与企业版,并提供数据库 AI 相关能力。
                            领券
                            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档