前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ML特训营笔记1

ML特训营笔记1

作者头像
皮大大
发布2021-03-02 16:19:33
发布2021-03-02 16:19:33
5200
举报

记录的主要内容是矩阵、线性代数、凸优化和最小二乘法方面的知识点

线性代数

矩阵

1.矩阵的加法

A = (a_{ij}),B = (b_{ij})是两个m \times n矩阵,则m \times n 矩阵C = c_{ij}) = a_{ij} + b_{ij}称为矩阵A与B的和,记为A + B = C

2.矩阵的数乘

A = (a_{ij})m \times n矩阵,k是一个常数,则m \times n矩阵(ka_{ij})称为数k与矩阵A的数乘,记为{kA}

3.矩阵的乘法

,其中

c_{ij} = a_{i1}b_{1j} + a_{i2}b_{2j} + \cdots + a_{in}b_{nj} = \sum_{k =1}^{n}{a_{ik}b_{kj}}

称为

4.向量的内积及正交性

两个向量的内积=两个向量的模相乘,再乘以cos \theta,角度\theta为两个向量的夹角。如果两个向量垂直,则内积为0

<X,Y>=<Y,X>=X \cdot Y=Y \cdot X=X^T Y=Y^T X
<X,Y>>=||X|| ||Y||cos \theta

其中:

\theta = argcos \frac {<X,Y>}{||X||||Y||}
ATA=I=A{-1}A

即A的转置等于A的逆,则A是正交矩阵。


5.矩阵乘法运算律

乘法结合律:A(BC)=(AB)C

左分配律:(A+B)C = AC+BC

右分配律:A(B+C)= AB+AC

注意:两个矩阵相乘,要保证:前一个的列数=后一个的行数

一般情况下:

AB \neq BA

6.特征值和特征向量的概念及性质

的一个特征值,则

{kA},{aA} + {bE},A{2},A{m},f(A),A{T},A{- 1},A^{*}

有一个特征值分别为 ​

{kλ},{aλ} + b,\lambda{2},\lambda{m},f(\lambda),\lambda,\lambda^{- 1},\frac{|A|}{\lambda},

且对应特征向量相同(A^{T}

的n个特征值,则

\sum_{i= 1}^{n}\lambda_{i} = \sum_{i = 1}^{n}a_,\prod_{i = 1}^{n}\lambda_{i}= |A|

从而

(3)设\lambda_{1},\lambda_{2},\cdots,\lambda_{s}As个特征值,对应特征向量为\alpha_{1},\alpha_{2},\cdots,\alpha_{s}

若:

\alpha = k_{1}\alpha_{1} + k_{2}\alpha_{2} + \cdots + k_{s}\alpha_{s}

则:

A^{n}\alpha = k_{1}A^{n}\alpha_{1} + k_{2}A^{n}\alpha_{2} + \cdots +k_{s}A^{n}\alpha_{s} = k_{1}\lambda_{1}^{n}\alpha_{1} +k_{2}\lambda_{2}^{n}\alpha_{2} + \cdots k_{s}\lambda_{s}^{n}\alpha_{s}

7.转置

(AT)T=A
(AB)T={BT}{A^T}
(A+B)^T= A^T + B^T

8.特殊矩阵

  • 下三角矩阵:左下角都是非零元素
  • 上三角矩阵:右上角都是非零元素
  • 对角阵:对角线是非零元素
  • 单位矩阵:对角线上都是1,其余是0

9.方阵的迹tr

  • 方阵的迹为对角线元素之和
trA=\sum^n_{i=1}a_{ii}
  • 性质:
trA=trA^T
tr(A+B)=trA+trB
tr(\lambda A)=\lambda trA
trAB=trBA

10.矩阵秩

矩阵的秩:该矩阵中线性无关的列向量的数目

(1) 秩r(A)=行秩=列秩;

(2)

r(A_{m \times n}) \leq \min(m,n);

(3)

A \neq 0 \Rightarrow r(A) \geq 1

(4)

r(A \pm B) \leq r(A) + r(B);

(5) 初等变换不改变矩阵的秩

r(A) + r(B) - n \leq r(AB) \leq \min(r(A),r(B))

特别若AB = O$ 则:

r(A) + r(B) \leq n

存在

r(AB) = r(B)

若存在

r(AB) = r(A)

r(A_{m \times n}) = n \Rightarrow r(AB) = r(B)

若​

r(A_{m \times s}) = n\Rightarrow r(AB) = r\left( A \right)

(8)

r(A_{m \times s}) = n \Leftrightarrow Ax = 0

上面的式子只有零解

11.空间

无穷多个向量构成的集合,满足性质:

  • 每个向量线性无关
  • 每个向量可以由其他的向量进行线性表示

12.向量的范数

||x||*p=(\sumn_{j=1}|x_j|p)^{\frac{1}{p}}
  • p=1,表示1范数
  • p=2,表示2范数
  • p为无穷,表示无穷范数

13.矩阵的范数

假设:A=(a_{ij}) \in R^{i*j}

F范数表示为

||A||*F=(\summ_{i=1}\sumn_{j=1}|a_{ij}|2){\frac{1}{2}}

性质:

||cA||=c||A||
||A+B|| \leq ||A||+||B||
||AB|| \leq ||A||||B||

最小二乘法

给定数据集合:

(x_1,y_1),(x_2,y_2),…,(x_n,y_n)

构建线性回归模型:

\hat y = kx+b
  • y_i表示观测值
  • \hat y表示估计值

残差(residual):

y_i - \hat {y_i} = y_i - (kx_i+b)

残差不是指距离,直接两个y值相减即可。

SSE (sum squares of error):

SSE= \sum ^m_{i=1}(y_i-\hat y_i)^2

最小二乘法就是使得残差平方和最小的直线模型。可以求出k、b的值

b=\hat y - k \hat x
k = \frac {\sum^m_{i=1}(y_i-\hat y)(x_i-\hat x)}{\sum^m_{i=1}(x_i-\hat x)^2}

最小二乘法求解两个参数k,b

  1. 先对b求导

  1. 再对k求导

  1. k的另一种表示方法

在上面k的表达式子中

总结上式子推导过程:

\sum^m_{i=1}x_i \hat y=\sum^m \hat x y_i = \sum^m_{i=1} \hat x \hat y

那么k 的另一种表达式为:

最小二乘法和最大似然估计的关系

最小二乘法是残差满足正态分布情况下的最大似然估计

\varepsilon_i=y_i - \hat y_i=y_i-(kx_i+b)
y_i=(kx_i+b)+\varepsilon_i=\hat y_i+\varepsilon_i

\begin{align} f(\varepsilon_i|k,b) & = \frac{1}{\sqrt{2\pi}\delta}exp(-\frac{\varepsilon_i2}{2\delta2}) \ & = \frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y_i- \hat y_i)2}{2\delta2}) \ \end{align}

对数似然函数为:

\begin{align} I(k,b,\varepsilon_1,…,\varepsilon_m) & =InL(k,b,\varepsilon_1,…,\varepsilon_m) \ & = \summ_{i=1}In{\frac{1}{\sqrt{2\pi}\delta}}-\frac{1}{2\delta2}\sum^m_{i=1}(y_i-\hat y_i)^2 \end{align}

最大似然函数为:

\max I(k,b,\varepsilon_1,…,\varepsilon_m)\Leftrightarrow \min \sum^m_{i=1}(y_i-\hat y_i)^2

凸优化

优化问题简介

机器学习流程

  1. 建模
  2. 优化问题
    1. 复杂优化问题(非凸的,不熟悉的)
    2. 简单优化问题(低纬度优化,约束条件的简单优化,已知答案的优化)

优化问题的一般形式

  • 求解最小值
\min f_0(x)
  • 给定某个条件:
f_i(x) \leq, i=1,2,…,m

优化问题实例

凸集合和凸函数

凸集合:如果一个集合上的任何两个点之间的线段上的任何一点还在这个集合中,那么这个集合就是凸集合。

的定义域是凸集合,而且对于任何两个点以及两点之间的线段上的任意一点都有

f(\lambda x_1 + (1-\lambda)x_2) \leq \lambda f(x_1)+(1-\lambda)f(x_2),\lambda \in {0,1}

比如开口向上的二次函数

函数的上镜图:上镜图就是函数图像上方的部分区域

凸集合和凸函数的关系:一个函数是凸函数当且仅当函数的上镜图是凸集合。

凸组合

,权重系数小于0,且所有的权重系数之和为1,则S称之为凸组合:

S=\sum^n_{i=1}w_ix_i

物理意义:n个重心为

凸性质
  1. 凸集合形式:假设\Omega是一个凸集合,那么它的任意子集都是凸包,都仍然包含于\Omega
  2. 都有:
\sum^n_{i=1}w_if(x_i) \geq f(\sum^n_{i=1}w_ix_i)
  1. 凸函数性质:

局部极值肯定是全局极值;非凸函数的局部最优解未必是全局最优解

凸优化问题

凸优化问题的一般形式:

  1. 目标最小化f(x)
\min f_0(x)
  1. 给定条件
f_i(x) \leq b_i, i=1,2,3,…m
对偶问题

拉格朗日常量

L(x,\lambda,v)=f_0(x)+\summ_{i=1}\lambda_if_i(x)+\sump_{i=1}v_ih_i(x)

拉格朗日对偶函数 $$ \begin{align} g(\lambda,v) & = inf_ {x \in D} L(x,\lambda,v)\ & = inf_{x \in D}f_0(x) + \sum^n_{i=1}\lambda_if_i(x) + \sum^p_{i=1}v_ih_i(x) \ \end{align} $$

KKT条件

在某个约束条件g(x) \leq 0的情况下最小化f(x),转化为如下的形式

上面的条件称之为KKT条件

demo

给定约束条件

x2+y2+z^2 - 1=0

求解下面函数的最值

f(x) = x+2y+3z
  1. 拉格朗日函数
L(x,v)=x+2y+3z+v(x2+y2+z^2-1)
  1. 求出梯度
\triangledown_{x,y,z}=(1+2vx,2+2vy,3+2vz)
  1. 梯度为0

表示为3个分量分别为0

\left\{ \begin {array} 11+2vx=0 \ 2+2vy=0 \ 3+2vz=0 \ \end{array} \right.

得到了:

\left\{ \begin {array} xx=\frac{-1}{v} \ y=\frac{-2}{2v} \ z=\frac{-3}{2v} \ \end{array} \right.

将x,y,z带入式子x2+y2+z^2-1=0中,可以求出v,从而得到x,y,z

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-11-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 线性代数
    • 矩阵
  • 最小二乘法
  • 最小二乘法求解两个参数k,b
  • 最小二乘法和最大似然估计的关系
  • 凸优化
    • 优化问题简介
    • 凸集合和凸函数
    • 凸组合
    • 凸性质
    • 凸优化问题
    • 对偶问题
    • KKT条件
    • demo
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档