算法入门（二） -- 线性代数回顾

万事可爱^

修改于 2025-02-06 09:25:54

2870

文章被收录于专栏：机器学习修仙之旅机器学习修仙之旅

本来从这周就应该上手经典算法的，但是我大概翻了一下博客，没有人系统的串讲一下算法中用到的高数知识，都是在算法中掺杂的，想了一下还是准备花几周时间专门整理一下基础理论知识，今天我们就开始线性代数的复习吧。

一、向量与矩阵

1.向量与矩阵的基本概念

向量：向量是具有大小和方向的量，可以用一组有序的数来表示。在机器学习中，数据点常常被表示为向量。例如，在一个二维平面上的点

可以看作是一个二维向量

，其中

和

分别是向量在两个坐标轴上的分量。向量的维度就是其包含的分量个数，如

维向量

，这里的

就是向量的各个分量。向量可以直观地理解为空间中的一个箭头，其起点通常默认为原点，终点坐标即为向量的分量值。

矩阵：矩阵是一个由数按照矩形排列组成的表格。它可以看作是多个向量的组合。例如，一个

的矩阵

，其中

表示矩阵

第

行第

列的元素。矩阵的行向量是指矩阵的每一行所构成的向量，如矩阵

📷

的第

行向量为

；列向量则是矩阵的每一列所构成的向量，第

列向量为

。矩阵在机器学习中用于表示数据集合，例如，一个包含

个样本，每个样本有

个特征的数据矩阵，其中每一行代表一个样本，每一列代表一个特征。

2.向量与矩阵的基本运算

2.1.向量运算

2.1.1.向量加法

设向量

，

，则

。

例如，

，

，那么

。

从几何意义上看，向量加法相当于将两个向量首尾相接，得到的新向量是从第一个向量的起点指向第二个向量的终点。在机器学习中，向量加法可用于数据的合并或特征组合的操作，比如在图像识别中，将不同通道（如红、绿、蓝通道）的像素向量相加可以得到一个综合的颜色特征向量。

2.1.2.向量数乘

对于向量

和实数

，

。

如

，

，则

。

向量数乘在几何上表现为向量的缩放，其方向不变（当

时），长度变为原来的

倍。在机器学习中，常用于调整特征向量的权重，例如在神经网络的输入层，对输入特征向量进行数乘操作可以改变不同特征对后续计算的影响程度，或者在数据标准化过程中，通过数乘将向量的长度调整到合适的范围。

2.2.矩阵运算

2.2.1.矩阵加法

设矩阵

，

，则

。

例如

，

，

。

2.2.2.矩阵乘法

设矩阵

，

，则

，其中

。

例如

，

，

。

矩阵乘法的条件是矩阵

的列数等于矩阵

的行数。在机器学习中，矩阵乘法应用广泛，如神经网络中的层与层之间的连接运算，通过权重矩阵与输入矩阵相乘实现特征的转换与传递。每一层神经元的输出就是上一层输出矩阵与该层权重矩阵相乘的结果，从而逐步提取数据中的复杂特征。

2.2.3.矩阵转置

设矩阵

，则

。如

，

。矩阵转置改变了矩阵的行列结构，在一些算法中，如计算协方差矩阵时，需要对数据矩阵进行转置操作以便后续计算。对于一个数据矩阵

，其协方差矩阵

，这里就用到了矩阵转置，通过转置将数据矩阵的行向量转换为列向量，以便计算不同特征之间的协方差。

2.3.矩阵的秩、逆、特征值与特征向量

2.3.1.矩阵的秩

1. 定义：矩阵的秩是矩阵的一个重要的数字特征。对于一个

矩阵

，它的秩

定义为矩阵

中线性无关的行向量的最大数目（行秩），同时也等于线性无关的列向量的最大数目（列秩）。

例如，对于矩阵

，可以通过观察或者进一步的计算来确定它的秩。

2.计算方法

（1）初等变换法：利用初等行变换将矩阵化为行阶梯形矩阵。

行阶梯形矩阵的特点是：非零行（元素不全为零的行）的第一个非零元素的列标随着行标的增大而严格增大。

例如，对于矩阵

，对其进行初等行变换，

（第二行减去第一行的

倍）得到

，这是一个行阶梯形矩阵，非零行有

行，所以矩阵

的秩为

。

（2）定义法（判断向量组的线性相关性）：对于一个矩阵，分别考虑它的行向量组和列向量组。通过判断向量组的线性相关性来确定秩。

设矩阵

，其列向量组为

，

，

。 - 若存在一组不全为零的数

，使得

，则列向量组线性相关；若只有

时等式成立，则列向量组线性无关。通过这种方式找出线性无关列向量的最大个数，就是矩阵的秩。

3.秩的性质

，即矩阵的秩不超过它的行数和列数中的较小值。例如，对于

矩阵，其秩最大为

。 - 若

是

阶方阵，

可逆的充分必要条件是

。可逆矩阵也称为满秩矩阵。

，这个性质在研究矩阵乘法与秩的关系时很有用。例如，已知矩阵

的秩为

，矩阵

的秩为

，那么矩阵

的秩不超过

。从几何角度理解，矩阵的秩反映了矩阵所对应的向量空间的维度。在数据降维等操作中，可通过判断矩阵的秩来确定数据的冗余程度。例如在主成分分析（PCA）中，协方差矩阵的秩等于数据的有效维度，通过对协方差矩阵进行特征值分解，选取非零特征值对应的特征向量进行投影，可将高维数据降到与矩阵秩相等的低维空间，从而去除数据中的冗余信息。

2.3.2.矩阵的逆

1.定义：对于方阵