大家好,我是不温卜火,昵称来源于成语—
不温不火
,本意是希望自己性情温和
。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!博客主页:https://buwenbuhuo.blog.csdn.net/
此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~
本文主要介绍了大数据发展历程及大数据的简单介绍,包括促进大数据时代到来的动因、大数据简介、大数据开发的一般过程、大数据的应用场景以及未来展望。
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。在2010年前后爆发的第三次信息化浪潮期间,由于信息逐渐增加,为了解决信息爆炸问题,物联网、云计算和大数据相继兴起了起来。下图为三次信息化浪潮发生时间、标志、解决问题以及代表企业。
根据上图我们可以清晰的看出存储价格随着时间的变化而变化。
根据上图我们可以清晰的看到CPU晶体管数目随着时间的变化而变化。
根据上图我们可以清晰的看到网络带宽随着时间的变化而变化。
在信息化基础设施方面,据工业和信息化部官网消息,截至2019年12月底,我国互联网宽带接入端口数量达9.16亿个,其中,光纤接入端口占互联网接入端口的比重达91.3%;光缆线路总长度已达4750万公里,相当于在京沪高铁线上往返1.8万余次。同时,近五年来固定宽带和移动宽带资费平均下降90%,速率提升6倍。目前,我国已基本实现“城市光纤到楼入户,农村宽带进乡入村”。
据中国信息通信研究院(简称中国信通院)数据,截至2020年2月底,全国建设开通5G基站达16.4万个,5G网络建设基础不断夯实。2020年中国将建设60万~80万个5G基站。
大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
下图为大数据技术的不同层面及其功能的解释:
大数据的两大关键技术分别为:分布式存储和分布式处理。
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别,在此就不过多赘述云计算和物联网。如有兴趣可自行查阅相关资料。
如果说公司有需求,比如说双十一实时大屏功能的实现:
下图为实现过程分析:
如果我们想要完整实现的话,一般需要经过以下几个步骤:
下面分别介绍下这几个过程所用到的工具及其简单介绍。
关于数据存储和数据清洗的问题,可以采用原始的先存储后清洗,也可以先进行数据清洗,然后进行数据存储。
数据采集:又称数据获取,从传感器和互联网等渠道自动采集信息的过程。
下面为一些常见的数据采集工具:
1️⃣ 普通 1、python网络爬虫:
Urllib:HTTP请求库,用于请求、下载网页
Requests:基于Urllib,但更加快捷方便
Scrapy:爬虫框架,用于从网页中提取数据
2、Webmagic(Java):垂直爬虫框架,简单爬虫开发流程,专注于逻辑功能的开发。
3、BotnetSpider(C#):国人开源的跨平台、高性能、轻量级爬虫软件,.NET最为优秀的开源爬虫之一
2️⃣分布式采集工具
1、Chukwa(hadoop):用于监控大型分布式系统的数据收集系统,构建在HDFS和Mapreduce之上。
2、Kafka:由Apache开源,高吞吐量的分布式发布订阅消息系统。
3、Flume:分布式的海量日志采集、集合和传输系统。
🔍数据存储:数据以某种格式记录在计算机内部或外部存储介质上。
🔍数据存储不一定是以文件的形式存储,它可以是以数据库的形式进行存储,由数据库决定,怎样写入到文件中或者怎样保存在内存中。
下列为常见的数据库系统: 1️⃣ 关系型数据库(SQL) 1、MySQL(小型数据库):最流行的关系型数据库管理系统之一,将数据保存于不同表中。
2、Oracle(大型数据库):甲骨文公司数据库管理系统,高效率、可靠性高、适应高吞吐量。
3、SQL Server:Microsoft公司的数据库管理系统,使用方便、可伸缩性好、与相关软件集成程度高。
2️⃣ 非关系型数据库(NOSQL) 1、Hbase:高可靠性、高性能、可伸缩的分布式存储系统,可在PC Server上搭建大规模结构化存储集群。
2、MongoDB:介于关系型数据库和非关系型数据库之间的产品,功能丰富;基于分布式文件存储数据库,由C++编写。
3、Redis:一个日志型、高性能Key-Value数据库,数据可以从主服务器向任意数量的从服务器同步。
数据清洗:为了便于后续的处理和分析,对数据进行的质量诊断、数据整合、数据转换、缺失值处理和异常值处理等操作。
🔍数据清洗的方法
1、缺失值处理:对存在缺失的数据进行插补
2、异常值处理:对数据集中存在的不合理值进行处理
3、数据转换:将数据从一种表现形式转换成另一种表现形式
🔍数据清洗的工具
1、Mapreduce(Hadoop):基于集群的高性能并行计算框架;并行计算与运行软件框架;并行程序设计模型与方法。
2、Pandas(Python):解决数据分析任务的Python库,提供了诸多数据清洗的函数和方法。
3、OpenRefine:数据清洗工具,能够对数据进行可视化操作,类似Excel,但其工作方式更像数据库。
🔍利用机器学习等技术从数据中构建模型,从而挖掘出有价值的信息。
1️⃣数据分析的方法:机器学习
2️⃣数据分析的工具
1、Scikit-learn(Python):机器学习库,包含众多机器学习算法,使用方便。
2、Tensorflow:Google开源的深度学习技术,追随者众多,目前最火热的深度学习框架。
3、torch:Facebook力推的深度学习框架,具有较好的灵活性和速度,拥有Python版本Pytorch。
4、Spark:Apache开源的为大规模数据处理而设计的快速通过的计算引擎,拥有机器学习库Mllib。
数据可视化是将数据分析的过程与结果用图表等形式进行展示。
🔍数据可视化工具:
1、Matplotlib(Python):一个2D绘图库,可以绘制许多高质量的图形
2、Seaborn(Python):Matplotlib基础上的高级绘图库,运用简单的操作就能够画出较为复杂的图形
3、Tableau:一个强大的数据可视化工具,可实时进行可视化数据分析和数据探索
4、Echarts:由百度前端技术部开发的,基于Javascript的数据可视化图表库,提供直观、生动、可交互、可个性化定制的数据可视化图表
随着大数据的发展,大数据技术已经广泛应用在众多行业,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹:
1️⃣ 抖音精准推荐:推荐的都是你喜欢的视频
2️⃣ 电商站内推荐:给用户推荐可能喜欢的商品
3️⃣ 电商零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
4️⃣ 物流仓储:京东物流,上午下单下午送达、下午下单次日达
5️⃣ 保险 海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。
6️⃣ 金融 多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。
7️⃣ 房产 大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。
8️⃣汽车 利用了大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。
9️⃣生物医学 大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。比如影像大数据支撑下的早期肺癌支撑平台,基于大量病例数据样本,制定早期肺癌高危人群预警指标。
🔟 人工智能+5G+物联网+虚拟现实 人工智能的基础上就是大数据,在大量数据训练的基础上得到“经验”。 典型的例子是AlphaGo战胜人类棋手,因为AlphaGo已经经过了大量的下棋训练,训练得到了“下棋经验”。
除此之外还有电信以及只会城市的建设等等,大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。
图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式
在思维方式方面,大数据完全颠覆了传统的思维方式: 👋全样而非抽样 👋效率而非精确 👋相关而非因果
💫在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现
💫在就业市场方面,大数据的兴起使得数据科学家成为热门职业
💫在人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制 大数据行业发展趋势的两个层面:国家层面和高校教育和就业层面。
项目 | 2020年投资规模(亿元) |
---|---|
5G | 3000 |
特高压 | 600 |
轨道交通 | 5000 |
充电桩 | 100 |
数据中心 | 1000 |
人工智能 | 350 |
工业互联网 | 100 |
合计 | 10150 |
显然,发展大数据是我国的战略性决策,前景自然不言而喻。
2017年北京大学、中国人民大学等25所高校成功申请开设第一批大数据课程
大数据属于高新技术,大牛少,升职竞争小
2020年5月6日,人力资源和社会保障部发布《新职业—大数据工程技术人员就业景气现状分析报告》,报告显示:预计2020年中国大数据行业人才需求规模将达210万,2025年前大数据人才需求仍将保持30%~40%的增速,需求总量在2000万人左右。
在北京大数据开发工程师的平均薪水已经超越 1.5w 直逼2w,而且目前还保持强劲的发展势头,当然取得这个薪水的前提是要能力达标。
现在大数据正处于下一个风口
💖2020年是5G的元年,国家在大力铺设5G设备,2021年就是5G手机应用的开始,也是大数据要爆发的1年。5G带来的是每秒钟10g的数据,会给每家公司都带来海量的数据。那么传统的Java工具根本解决不了海量数据的存储。就更不用说海量数据的计算了。如果你对5G的感触不够深,可以回忆一下3G和4G的区别。3G时只能打电话、发短信,当时还觉得很好,觉得3G不错。但是4G来了后,大家很少打电话和发短信了,都改为语音、视频、直播、网上购物等生活方式,带火了淘宝、京东、美团、字节跳动等企业。没有跟上节奏的百度,有点摇摇欲坠。当然百度ai还是很牛逼的。
目前大数据高、中、低三个档次的人才都很缺。 现在我们谈大数据,就像当年谈电商一样,未来前景已经很明确,接下来就是优胜劣汰,竞争上岗。不想当架构师的程序员不是好程序员!
大数据发展到现阶段,涉及大数据相关的职业岗位也越来越精细。从职业发展来看,由大数据开发、挖掘、算法、到架构。从级别来看,从工程师、高级工程师,再到架构师,甚至到科学家。而且,契合不同的行业领域,又有专属于这些行业的岗位衍生,如涉及金融领域的数据分析师等。
大数据的相关工作岗位有很多,有数据分析师、数据挖掘工程师、大数据开发工程师、大数据产品经理、可视化工程师、爬虫工程师、大数据运营经理、大数据架构师、数据科学家等等。
为了能够让各位能够对工作岗位有更加清晰的认知,特制作大数据组织部门结构图,如下图所示:
根据上图中的组织结构我们可以知道从事大数据岗位包括:
部分相关素材来源:
本片文章到这里就结束了,如有不足请指出~