本书的目的是系统地介绍数据科学的基本内容,包括数据预处理,数据分析的基本方法,特殊问题的处理(比方说文本分析),深度学习,以及分布式系统。数据科学是一门理论和实践必须密切结合的学科。为此,博雅大数据学院特地打造了“数据嗨客”平台。在这个平台上,学生可以得到相应的实战训练。本书的大部分章节也都含有实战案例。
给定一个数据集,我们通常把它分为两部分:一部分用来训练模型,称之为训练集;另一部分用来评估模型的效果,称之为测试集。不同的模型往往对数据类型、数据格式和数据分布有要求,因此,在拿到一份实际问题的数据集后,通常需要对数据进行预处理。本书将在第二章介绍常见的数据预处理方法,包括特征转换、缺失值处理、数据标准化、特征离散化和离群值检测等。
数据分析最核心的任务可以分为两大类:一类是有监督学习(supervised learning),一类是无监督学习(unsupervised learning)。有监督学习要求数据集中的样本带有一个输出标签,模型的目标是找到一个样本到标签的最佳映射。典型的有监督学习包括回归和分类。前者的标签是连续型的,后者的标签是离散型的。
第三章讨论回归模型,包括线性回归、正则化的线性回归和非线性回归。
典型的分类模型包括逻辑回归、K近邻、决策树、朴素贝叶斯和支持向量机等,我们将在第四章进行详细讨论。集成模型是一类更加复杂的有监督学习模型,它能够从训练集中学习多个模型,将多个模型进行组合,从而提升预测效果。本书将在第五章讨论Bagging和Boosting两类集成方法及其代表性模型。
有监督学习只能处理打过标签的数据。无监督学习没有这个要求。它根据我们的兴趣来刻画数据的某种统计规律。无监督学习的典型任务包括聚类和关联规则挖掘等。本书将在第六章介绍常见的聚类模型,包括K-means,层次聚类和谱聚类等。关联规则挖掘是另一类从数据中提取规则的无监督学习,我们将在第七章介绍典型的关联规则挖掘算法。
利用数据建立模型后,最关心的问题是模型是否有足够“好”的表现,也即如何评估模型效果,本书将在附录E讨论模型评估,包括数据集划分方法和模型评价指标。
不要忘记训练数据总是有噪音的。如果一个模型的参数过多,就有可能出现过度拟合(overfitting)问题,即模型对训练数据拟合得很好,但对未知数据(比方说测试数据)表现得不好。这是数据分析中经常必须面对的问题。
降维和特征选择是两种减少数据维数的方法。本书将在第八章讨论降维,第九章则讨论常见的特征选择方法。
第十章介绍的EM算法是一个广泛应用于模型优化的方法。这个方法的典型应用案例是高斯混合模型。概率图模型(probabilistic graphical model)使用图的方式提供了一种直观、简洁的框架来表示特征之间的依赖关系,从而用于表示数据的概率分布。
我们将在第十一章介绍典型的概率图模型,包括隐马尔科夫模型和条件随机场模型。
第十二章讨论文本分析,包括如何对文本数据进行表示,主题分析和情感分析等内容。
第十三章介绍一种特殊结构的数据:网络数据。网络数据将数据表示成一个图,图中的节点表示关注的对象,边则表示对象之间的关系。例如,如果将互联网中的网页看作节点,网页之间的链接看作边,整个互联网则表示成了一个大的有向图。图和网络分析关注如何从图数据中挖掘信息,例如如何评价节点重要度,如何从网络中寻找社区结构等。
第十四章介绍了当下人工智能与数据科学中最为火热的深度学习技术。该框架可以让计算机从经验中学习,并根据层次化的概念体系来理解复杂数据(比如图像,音频,自然语言等),而每个概念则通过与某些相对简单的概念之间的关系来定义。层次化的概念让计算机构建较简单的概念来学习复杂概念,从而实现以往方法很难完成的任务。该章覆盖了深度学习的基础知识,训练深度学习模型的方法以及常用的模型结构等。
第十五章讨论Hadoop和Spark等常见分布式系统的基本原理和架构,并介绍如何利用这类平台进行大规模数据处理和模型构建。
领取专属 10元无门槛券
私享最新 技术干货