ML特训营笔记1

皮大大

发布于 2021-03-02 16:19:33

5200

文章被收录于专栏：机器学习/数据可视化机器学习/数据可视化

记录的主要内容是矩阵、线性代数、凸优化和最小二乘法方面的知识点

线性代数

矩阵

1.矩阵的加法

设A = (a_{ij}),B = (b_{ij})是两个m \times n矩阵，则m \times n 矩阵C = c_{ij}) = a_{ij} + b_{ij}称为矩阵A与B的和，记为A + B = C

2.矩阵的数乘

设A = (a_{ij})是m \times n矩阵，k是一个常数，则m \times n矩阵(ka_{ij})称为数k与矩阵A的数乘，记为{kA}。

3.矩阵的乘法

，其中

c_{ij} = a_{i1}b_{1j} + a_{i2}b_{2j} + \cdots + a_{in}b_{nj} = \sum_{k =1}^{n}{a_{ik}b_{kj}}

称为

4.向量的内积及正交性

两个向量的内积=两个向量的模相乘，再乘以cos \theta，角度\theta为两个向量的夹角。如果两个向量垂直，则内积为0

<X,Y>=<Y,X>=X \cdot Y=Y \cdot X=X^T Y=Y^T X

<X,Y>>=||X|| ||Y||cos \theta

其中：

\theta = argcos \frac {<X,Y>}{||X||||Y||}

ATA=I=A{-1}A

即A的转置等于A的逆，则A是正交矩阵。

5.矩阵乘法运算律

乘法结合律：A(BC)=(AB)C

左分配律：(A+B)C = AC+BC

右分配律：A(B+C)= AB+AC

注意：两个矩阵相乘，要保证：前一个的列数=后一个的行数

一般情况下：

AB \neq BA

6.特征值和特征向量的概念及性质

的一个特征值，则

{kA},{aA} + {bE},A{2},A{m},f(A),A{T},A{- 1},A^{*}

有一个特征值分别为

{kλ},{aλ} + b,\lambda{2},\lambda{m},f(\lambda),\lambda,\lambda^{- 1},\frac{|A|}{\lambda},

且对应特征向量相同（A^{T}

的n个特征值，则

\sum_{i= 1}^{n}\lambda_{i} = \sum_{i = 1}^{n}a_,\prod_{i = 1}^{n}\lambda_{i}= |A|

从而

(3)设\lambda_{1},\lambda_{2},\cdots,\lambda_{s}为A的s个特征值，对应特征向量为\alpha_{1},\alpha_{2},\cdots,\alpha_{s}，

若:

\alpha = k_{1}\alpha_{1} + k_{2}\alpha_{2} + \cdots + k_{s}\alpha_{s}

则:

A^{n}\alpha = k_{1}A^{n}\alpha_{1} + k_{2}A^{n}\alpha_{2} + \cdots +k_{s}A^{n}\alpha_{s} = k_{1}\lambda_{1}^{n}\alpha_{1} +k_{2}\lambda_{2}^{n}\alpha_{2} + \cdots k_{s}\lambda_{s}^{n}\alpha_{s}

7.转置

(AT)T=A

(AB)T={BT}{A^T}

(A+B)^T= A^T + B^T

8.特殊矩阵

下三角矩阵：左下角都是非零元素
上三角矩阵：右上角都是非零元素
对角阵：对角线是非零元素
单位矩阵：对角线上都是1，其余是0

9.方阵的迹tr

方阵的迹为对角线元素之和

trA=\sum^n_{i=1}a_{ii}

性质：

trA=trA^T

tr(A+B)=trA+trB

tr(\lambda A)=\lambda trA

trAB=trBA

10.矩阵秩

矩阵的秩：该矩阵中线性无关的列向量的数目

(1) 秩r(A)=行秩=列秩；

(2)

r(A_{m \times n}) \leq \min(m,n);

(3)

A \neq 0 \Rightarrow r(A) \geq 1

(4)

r(A \pm B) \leq r(A) + r(B);

(5) 初等变换不改变矩阵的秩

r(A) + r(B) - n \leq r(AB) \leq \min(r(A),r(B))

特别若AB = O$ 则：

r(A) + r(B) \leq n

存在

r(AB) = r(B)

若存在

r(AB) = r(A)

若

r(A_{m \times n}) = n \Rightarrow r(AB) = r(B)

若

r(A_{m \times s}) = n\Rightarrow r(AB) = r\left( A \right)

(8)

r(A_{m \times s}) = n \Leftrightarrow Ax = 0

上面的式子只有零解

11.空间

无穷多个向量构成的集合，满足性质：

每个向量线性无关
每个向量可以由其他的向量进行线性表示

12.向量的范数

||x||*p=(\sumn_{j=1}|x_j|p)^{\frac{1}{p}}

p=1，表示1范数
p=2，表示2范数
p为无穷，表示无穷范数

13.矩阵的范数

假设：A=(a_{ij}) \in R^{i*j}

F范数表示为

||A||*F=(\summ_{i=1}\sumn_{j=1}|a_{ij}|2){\frac{1}{2}}

性质：

||cA||=c||A||

||A+B|| \leq ||A||+||B||

||AB|| \leq ||A||||B||

最小二乘法

给定数据集合：

(x_1,y_1),(x_2,y_2),…,(x_n,y_n)

构建线性回归模型：

\hat y = kx+b

y_i表示观测值
\hat y表示估计值

残差（residual）：

y_i - \hat {y_i} = y_i - (kx_i+b)

残差不是指距离，直接两个y值相减即可。

SSE (sum squares of error)：

SSE= \sum ^m_{i=1}(y_i-\hat y_i)^2

最小二乘法就是使得残差平方和最小的直线模型。可以求出k、b的值

b=\hat y - k \hat x

k = \frac {\sum^m_{i=1}(y_i-\hat y)(x_i-\hat x)}{\sum^m_{i=1}(x_i-\hat x)^2}

最小二乘法求解两个参数k,b

先对b求导

再对k求导

k的另一种表示方法

在上面k的表达式子中

总结上式子推导过程：

\sum^m_{i=1}x_i \hat y=\sum^m \hat x y_i = \sum^m_{i=1} \hat x \hat y

那么k 的另一种表达式为：

最小二乘法和最大似然估计的关系

最小二乘法是残差满足正态分布情况下的最大似然估计

\varepsilon_i=y_i - \hat y_i=y_i-(kx_i+b)

y_i=(kx_i+b)+\varepsilon_i=\hat y_i+\varepsilon_i

\begin{align} f(\varepsilon_i|k,b) & = \frac{1}{\sqrt{2\pi}\delta}exp(-\frac{\varepsilon_i2}{2\delta2}) \ & = \frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y_i- \hat y_i)2}{2\delta2}) \ \end{align}

对数似然函数为：

\begin{align} I(k,b,\varepsilon_1,…,\varepsilon_m) & =InL(k,b,\varepsilon_1,…,\varepsilon_m) \ & = \summ_{i=1}In{\frac{1}{\sqrt{2\pi}\delta}}-\frac{1}{2\delta2}\sum^m_{i=1}(y_i-\hat y_i)^2 \end{align}

最大似然函数为：

\max I(k,b,\varepsilon_1,…,\varepsilon_m)\Leftrightarrow \min \sum^m_{i=1}(y_i-\hat y_i)^2

凸优化

优化问题简介

机器学习流程

建模
优化问题
1. 复杂优化问题（非凸的，不熟悉的）
2. 简单优化问题（低纬度优化，约束条件的简单优化，已知答案的优化）

优化问题的一般形式

求解最小值

\min f_0(x)

给定某个条件：

f_i(x) \leq, i=1,2,…,m

优化问题实例

凸集合和凸函数

凸集合：如果一个集合上的任何两个点之间的线段上的任何一点还在这个集合中，那么这个集合就是凸集合。

的定义域是凸集合，而且对于任何两个点以及两点之间的线段上的任意一点都有

f(\lambda x_1 + (1-\lambda)x_2) \leq \lambda f(x_1)+(1-\lambda)f(x_2),\lambda \in {0,1}

比如开口向上的二次函数

函数的上镜图：上镜图就是函数图像上方的部分区域

凸集合和凸函数的关系：一个函数是凸函数当且仅当函数的上镜图是凸集合。

凸组合

，权重系数小于0，且所有的权重系数之和为1，则S称之为凸组合：

S=\sum^n_{i=1}w_ix_i

物理意义：n个重心为

凸性质

凸集合形式：假设\Omega是一个凸集合，那么它的任意子集都是凸包,都仍然包含于\Omega
都有:

\sum^n_{i=1}w_if(x_i) \geq f(\sum^n_{i=1}w_ix_i)

凸函数性质：

局部极值肯定是全局极值；非凸函数的局部最优解未必是全局最优解

凸优化问题

凸优化问题的一般形式:

目标最小化f(x)

\min f_0(x)

给定条件

f_i(x) \leq b_i, i=1,2,3,…m

对偶问题

拉格朗日常量

L(x,\lambda,v)=f_0(x)+\summ_{i=1}\lambda_if_i(x)+\sump_{i=1}v_ih_i(x)

拉格朗日对偶函数 $$ \begin{align} g(\lambda,v) & = inf_ {x \in D} L(x,\lambda,v)\ & = inf_{x \in D}f_0(x) + \sum^n_{i=1}\lambda_if_i(x) + \sum^p_{i=1}v_ih_i(x) \ \end{align} $$

KKT条件

在某个约束条件g(x) \leq 0的情况下最小化f(x)，转化为如下的形式

上面的条件称之为KKT条件

demo

给定约束条件

x2+y2+z^2 - 1=0

求解下面函数的最值

f(x) = x+2y+3z

拉格朗日函数

L(x,v)=x+2y+3z+v(x2+y2+z^2-1)

求出梯度

\triangledown_{x,y,z}=(1+2vx,2+2vy,3+2vz)

梯度为0

表示为3个分量分别为0

\left\{ \begin {array} 11+2vx=0 \ 2+2vy=0 \ 3+2vz=0 \ \end{array} \right.

得到了：

\left\{ \begin {array} xx=\frac{-1}{v} \ y=\frac{-2}{2v} \ z=\frac{-3}{2v} \ \end{array} \right.

将x,y,z带入式子x2+y2+z^2-1=0中，可以求出v，从而得到x,y,z

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019-11-24，如有侵权请联系 cloudcommunity@tencent.com 删除

serverless

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

serverless

登录后参与评论

0 条评论

热度