本来从这周就应该上手经典算法的,但是我大概翻了一下博客,没有人系统的串讲一下算法中用到的高数知识,都是在算法中掺杂的,想了一下还是准备花几周时间专门整理一下基础理论知识,今天我们就开始线性代数的复习吧。
可以看作是一个二维向量
,其中
和
分别是向量在两个坐标轴上的分量。向量的维度就是其包含的分量个数,如
维向量
,这里的
就是向量的各个分量。向量可以直观地理解为空间中的一个箭头,其起点通常默认为原点,终点坐标即为向量的分量值。
的矩阵
,其中
表示矩阵
第
行第
列的元素。矩阵的行向量是指矩阵的每一行所构成的向量,如矩阵
的第
行向量为
;列向量则是矩阵的每一列所构成的向量,第
列向量为
。矩阵在机器学习中用于表示数据集合,例如,一个包含
个样本,每个样本有
个特征的数据矩阵,其中每一行代表一个样本,每一列代表一个特征。
2.1.1.向量加法
设向量
,
,则
。
例如,
,
,那么
。
从几何意义上看,向量加法相当于将两个向量首尾相接,得到的新向量是从第一个向量的起点指向第二个向量的终点。在机器学习中,向量加法可用于数据的合并或特征组合的操作,比如在图像识别中,将不同通道(如红、绿、蓝通道)的像素向量相加可以得到一个综合的颜色特征向量。
2.1.2.向量数乘
对于向量
和实数
,
。
如
,
,则
。
向量数乘在几何上表现为向量的缩放,其方向不变(当
时),长度变为原来的
倍。在机器学习中,常用于调整特征向量的权重,例如在神经网络的输入层,对输入特征向量进行数乘操作可以改变不同特征对后续计算的影响程度,或者在数据标准化过程中,通过数乘将向量的长度调整到合适的范围。
2.2.1.矩阵加法
设矩阵
,
,则
。
例如
,
,
。
2.2.2.矩阵乘法
设矩阵
,
,则
,其中
。
例如
,
,
。
矩阵乘法的条件是矩阵
的列数等于矩阵
的行数。在机器学习中,矩阵乘法应用广泛,如神经网络中的层与层之间的连接运算,通过权重矩阵与输入矩阵相乘实现特征的转换与传递。每一层神经元的输出就是上一层输出矩阵与该层权重矩阵相乘的结果,从而逐步提取数据中的复杂特征。
2.2.3.矩阵转置
设矩阵
,则
。如
,
。 矩阵转置改变了矩阵的行列结构,在一些算法中,如计算协方差矩阵时,需要对数据矩阵进行转置操作以便后续计算。对于一个数据矩阵
,其协方差矩阵
,这里就用到了矩阵转置,通过转置将数据矩阵的行向量转换为列向量,以便计算不同特征之间的协方差。
2.3.1.矩阵的秩
1. 定义:矩阵的秩是矩阵的一个重要的数字特征。对于一个
矩阵
,它的秩
定义为矩阵
中线性无关的行向量的最大数目(行秩),同时也等于线性无关的列向量的最大数目(列秩)。
例如,对于矩阵
,可以通过观察或者进一步的计算来确定它的秩。
2.计算方法
(1)初等变换法:利用初等行变换将矩阵化为行阶梯形矩阵。
行阶梯形矩阵的特点是:非零行(元素不全为零的行)的第一个非零元素的列标随着行标的增大而严格增大。
例如,对于矩阵
,对其进行初等行变换,
(第二行减去第一行的
倍)得到
,这是一个行阶梯形矩阵,非零行有
行,所以矩阵
的秩为
。
(2)定义法(判断向量组的线性相关性):对于一个矩阵,分别考虑它的行向量组和列向量组。通过判断向量组的线性相关性来确定秩。
设矩阵
,其列向量组为
,
,
。 - 若存在一组不全为零的数
,使得
,则列向量组线性相关;若只有
时等式成立,则列向量组线性无关。通过这种方式找出线性无关列向量的最大个数,就是矩阵的秩。
3.秩的性质
,即矩阵的秩不超过它的行数和列数中的较小值。例如,对于
矩阵,其秩最大为
。 - 若
是
阶方阵,
可逆的充分必要条件是
。可逆矩阵也称为满秩矩阵。
,这个性质在研究矩阵乘法与秩的关系时很有用。例如,已知矩阵
的秩为
,矩阵
的秩为
,那么矩阵
的秩不超过
。 从几何角度理解,矩阵的秩反映了矩阵所对应的向量空间的维度。在数据降维等操作中,可通过判断矩阵的秩来确定数据的冗余程度。例如在主成分分析(PCA)中,协方差矩阵的秩等于数据的有效维度,通过对协方差矩阵进行特征值分解,选取非零特征值对应的特征向量进行投影,可将高维数据降到与矩阵秩相等的低维空间,从而去除数据中的冗余信息。
2.3.2.矩阵的逆
1.定义:对于方阵
,如果存在一个方阵
,使得
(
为单位矩阵),那么方阵
是可逆的,方阵
称为
的逆矩阵,记作
。
是可逆的,它的逆矩阵就是其本身。
2.可逆的判定条件
阶方阵可逆的充分必要条件是
(
表示矩阵的
行列式)。
,其行列式
,所以矩阵是可逆的。
3.求逆矩阵的方法
(1)伴随矩阵法
阶方阵
,其逆矩阵
,其中
是
的伴随矩阵。伴随矩阵的元素是
的代数余子式构成的转置矩阵。
矩阵
,其行列式
,伴随矩阵
,则
(前提是
)。
(2)初等变换法
将矩阵(
是要求逆的矩阵,
是单位矩阵)进行初等行变换,当左边的
变为单位矩阵
时,右边的矩阵就是
的逆矩阵。
,构造
,经过初等行变换
得到
,再进行
等操作,最终将左边化为单位矩阵
,所以
。
4.矩阵的性质
可逆,则
。
、
为同阶可逆矩阵,则
。
和
可逆,
,
同理
。
可逆,
(
为常数),则
。
矩阵求逆在一些机器学习算法的推导和求解过程中会用到,如在线性回归的正规方程求解中,模型参数
,这里就需要计算矩阵
的逆(假设其可逆),通过求逆得到模型参数的解析解,从而确定线性回归模型的系数。
2.3.3.特征值与特征向量
1.定义:设
是
阶方阵,如果存在数
和非零
维向量
,使得
,那么
称为方阵
的一个特征值,
称为方阵对应于特征值
的一个特征向量。
,设
是其特征值,
是对应的特征向量,则有
。
2.计算方法
,其中
是
阶单位矩阵。
阶方阵
,
。
的根,这些根就是矩阵
的特征值。
,再求解齐次线性方程组
的非零解,这些非零解就是对应于特征值
的特征向量。
,特征多项式为
。
,即
,解得
,
。
时,代入
,即
,解得
,取
,则特征向量为
。
时,代入
,即
,解得
,取
,则特征向量为
。
3.性质
阶方阵
的特征值为
,则有
(
是矩阵
的迹,即主对角线元素之和
),
。
,
是方阵
对应于不同特征值
,
的特征向量,则
和
线性无关。
以下以数据降维为例,简单讲解一下向量空间与线性变换在机器学习中的应用:
(
个样本,
个特征),首先计算协方差矩阵
。然后求
的特征值
和对应的特征向量
。将特征值从大到小排序,选取前
个特征值对应的特征向量组成投影矩阵
。则降维后的数据
。这样就将维数据降到了
维,且在一定程度上保留了数据的主要信息。例如图像数据,原始图像可能有很多像素点(高维特征),通过 PCA 可以将其降维,减少数据量的同时保留图像的主要特征信息,便于后续处理和分析。从向量空间的角度看,PCA 的原理是在原始数据所在的
维向量空间中,找到一组新的正交基(即特征向量),使得数据在这些基向量上的投影能够最大程度地反映数据的方差。通过将数据投影到由前
个特征向量张成的子空间中,实现了数据的降维,并且由于保留了方差较大的方向,所以能保留数据的主要信息,避免了信息的过度损失。
好了到了这里你就开启了算法修仙的筑基之路,希望各位道友修行路上一切顺利。