机器学习入门需要哪些数学基础?
除了高等数学、线性代数、概率论与数理统计
虽然题主已经说了高等数学、线性代数和概率统计,但是这三门科目的很多知识是最基础,也是最常用的。
以下我简单介绍一下线代和概统中比较重要的理论。
一.线性代数
1.矩阵和向量
矩阵是二维数组,其中的每一个元素被两个索引而非一个所确定。我们通常会赋予矩阵粗体的大写变量名称,比如A。
一个向量就是一列数,这些数是有序排列的。通常会赋予向量粗体的小写名称。
2.张量
几何代数中定义的张量是基于向量和矩阵的推广,通俗一点理解的话,我们可以将标量视为零阶张量,矢量视为一阶张量,那么矩阵就是二阶张量。
3.范数
p阶范数定义如下:
一阶范数:为x向量各个元素绝对值之和;
二阶范数:为x向量各个元素平方和的开方。
4.特征向量和特征值
方阵A的特征向量是指与A相乘后相当于对该向量进行缩放的非零向量ν,标量λ被称为这个特征向量对应的特征值。
5.距离公式
曼哈顿距离也称为城市街区距离,数学定义如下:
欧氏距离其实就是2阶范数,数学定义如下:
二.概率统计
1.随机变量及其概率分布
随机变量可以随机地取不同值的变量。我们通常用小写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。
给定某随机变量的取值范围,概率分布就是导致该随机事件出现的可能性。
常见的概率分布有:二项分布,几何分布,泊松分布,均匀分布,正态分布,指数分布等。
2.条件概率
3.贝叶斯公式
4.期望和方差
数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一,反映随机变量平均值的大小。
对于离散型变量:
对于连续型变量:
方差用来衡量随机变量与其数学期望之间的偏离程度;统计中的方差为样本方差,是各个样本数据分别与其平均数之差的平方和的平均数。数学表达式如下:
5.协方差
协方差被用于衡量两个随机变量X和Y之间的总体误差。数学定义式为:
6.最大似然估计
最大似然也称为最大概似估计,即:在“模型已定,参数θ未知”的情况下,通过观测数据估计未知参数θ 的一种思想或方法。
其基本思想是: 给定样本取值后,该样本最有可能来自参数\theta 为何值的总体。即:寻找使得观测到样本数据的可能性最大的估计值。
求极大似然函数估计值的一般步骤:
除了高等数学、线性代数、概率论和数理统计之外,最好学习但不仅限于以下内容:
(1)熵、联合熵、条件熵
熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。
随机变量X的熵定义为:
联合熵定义为:
条件熵用来衡量在已知随机变量X的条件下,随机变量Y的不确定性,定义为:
(2)互信息
两个随机变量X,Y的互信息定义为X,Y的联合分布和各自独立分布乘积的相对熵称为互信息,用I(X,Y)表示,定义为:
(3)香农定理
香农定理是所有通信制式最基本的原理,它描述了有限带宽、有随机热噪声信道的最大传输速率与信道带宽、信号噪声功率比之间的关系。表示为:
C=Blog2(1+S/N)
其中:B是信道带宽(赫兹),S是信号功率(瓦),N是噪声功率(瓦)