大数据发展趋势
大数据已不再只是一个流行术语。
根据调研机构IDC公司预测,大数据和业务分析市场将从2018年的1301亿美元增长到2020年的2030多亿美元。
“数据的可用性、新一代技术以及向数据驱动型决策的文化转型将继续推动企业对大数据和分析技术和服务的需求。”IDC公司分析和信息管理集团副总裁Dan Vesset说,“2015年的全球大数据市场收入达到1220亿美元,2016年的市场收入增长11.3%,预计到2020年大数据市场收入的复合年均增长率将达到11.7%。”
虽然大数据市场将会增长,但企业对如何使用他们的大数据却不那么清楚。
《大数据系统运维》
“一场时代对话”——打好大数据运维工作的一场硬仗
内容简介
本书是大数据应用人才培养系列教材中的一册,讲解了大数据系统运维过程中的各个主要阶段及其任务,包括配置管理、系统管理故障管理、性能管理、安全管理、高可用性管理、应用变更管理、升级管理及服务资源管理等。
本书可作为培养应用型人才的课程教材,也同样适用于有意从事IT系统运维工作的广大从业者和爱好者作为参考书
打铁还需自身硬。打造大数据应用型人才,我们做好充足准备。——大数据应用人才培养系列教材
考虑到大数据人才未来要做具体的大数据基础工作,本套丛书的讲解侧重于应用,对知识点给出具体的操作,并且有配套的动手实验。内容安排遵循从简单到复杂、从理论到实践的学习过程;同时也遵循系统性和覆盖面宽的原则。本套丛书可以作为培养应用型人才的课程教材,也同样适用于有意从事大数据系统基础工作的IT从业人员作为参考书。“千里之行,始于足下”,“不积跬步无以至千里”,希望大数据应用型人才从一开始就能有一个全面良好的基础,本套丛书在起跑线上为你助力。
——作者初衷
《大数据导论》
《大数据导论》是了解和学习大数据的基础条件,通过本书了解大数据基本概念,大数据的架构,大数据的采集方式和预处理,常用的ETL工具,简单熟悉数据仓库的构建模式,大数据的存储,数据挖掘的方法,以及大数据的可视化技术,从而更好的将大数据技术应用在各行业领域,更深入地开展大数据技术的应用研究。从基础开始,通过理论与实际案例相结合,帮助读者由浅入深进行学习,逐步清理大数据的核心技术和发展趋势。本书可以作为培养应用型人才的课程教材,也适用于初学入门者,对大数据基础理论有需求的广大读者。
《云计算导论》
本书主要内容包括云计算的基本概念、发展现状、主要平台的部署及关键技术、虚拟化与容器技术、云计算的实用化、国内外云计算服务与大规模应用、环境云(envicloud.cn)和万物云(wanwuyun.com)典型行业应用介绍与剖析等内容,适用于应用型本科、高职高专院校的云计算课程和教学。本书的实验环境部署通过云创大数据实验平台(https://bd.cstor.cn)上远程开展。
《数据挖掘基础》
本书介绍了数据挖掘的基本概念,包括数据挖掘的常用算法、常用工具、用途和应用场景及应用状况,讲述了常用数据挖掘方法,如分类、聚类、关联规则的概念、思想、典型算法、应用场景等。此外,本书还从实际应用从发,讲解了基于日志的大数据挖掘技术的原理、工具、应用场景和成功案例。通过以上内容的学习,读者将了解数据挖掘的基本概念、思想和算法,并掌握其应用要领。本书可以作为培养应用型人才的课程教材,也可作为相关开发人员的自学教材和参考手册。
《R语言》
近年来,R语言可谓是数据分析的热门语言,相关的资料五花八门,让读者无所适从,本书力求用简洁、精炼、理论实践相结合的方式让大家快速掌握R语言。全书共17章,分为基础篇(第2-10章),应用篇(第11-15章)和进阶篇(第16-17章)。基础篇按照数据分析过程,主要讨论了R数据结构、数据导入/导出、数据清洗、数据变换、可视化、高级语言编程和常用建模方法。应用篇通过对5个经典案例的分析,使读者能够把学到的R基础知识应用到解决实际问题,把数据变成价值。进阶篇解决如何用R处理大数据的一些技术。本书可以作为培养应用型人才的课程教材,也可作为数据分析爱好者的参考资料。
《数据清洗》
数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误。该步骤针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍了Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验和数据错误处理,数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集等;第8章介绍RDBMS的数据清洗方法和数据脱敏处理技术等。本书系统地讲解了数据清洗理论和实际应用,可以作为培养应用型人才的课程教材,也适用于希望了解数据清洗的广大读者。
《大数据实践》
本书内容涵盖了目前使用广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统:分布式大数据处理系统Hadoop、Hadoop数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL,详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式都给出了详细步骤,常用命令也都有具体示例介绍,是一本实操性很强的工具书,能帮助初学者快速掌握和操作这几款常用的大数据处理系统。本书以浅显易懂的语言风格和图文并茂的操作示例引领读者迈入大数据实践之门,可以作为培养应用型人才的课程教材,也可作为相关开发人员的自学教材和参考手册。
《大数据系统运维》
本书是大数据应用人才培养系列教材中的一册,讲解了大数据系统运行维护过程中的各个主要阶段及其任务,包括配置管理、系统管理、故障管理、性能管理、安全管理、高可用性管理、应用变更管理、升级管理及服务资源管理,内容全面且翔实,兼具基础理论知识与运维实践经验,特别是重点介绍了大数据系统的运维特点及运维技能,以保障大数据系统的稳定可靠运行,更好地支撑大数据的商业应用价值。本书具有很强的系统性和实践指导性,可以作为培养应用型人才的课程教材,也同样适合于有意从事IT系统运维工作的广大从业者和爱好者作为参考书。
领取专属 10元无门槛券
私享最新 技术干货