前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习中的矩阵向量求导(五) 矩阵对矩阵的求导

机器学习中的矩阵向量求导(五) 矩阵对矩阵的求导

作者头像
刘建平Pinard
发布于 2019-05-31 03:04:59
发布于 2019-05-31 03:04:59
3.4K0
举报

矩阵向量求导前4篇文章中,我们主要讨论了标量对向量矩阵的求导,以及向量对向量的求导。本文我们就讨论下之前没有涉及到的矩阵对矩阵的求导,还有矩阵对向量,向量对矩阵求导这几种形式的求导方法。

    本文所有求导布局以分母布局为准,为了适配矩阵对矩阵的求导,本文向量对向量的求导也以分母布局为准,这和前面的文章不同,需要注意。

    本篇主要参考了张贤达的《矩阵分析与应用》和长躯鬼侠的矩阵求导术

1. 矩阵对矩阵求导的定义

    假设我们有一个$p \times q$的矩阵$F$要对$m \times n$的矩阵$X$求导,那么根据我们第一篇求导的定义,矩阵$F$中的$pq$个值要对矩阵$X$中的$mn$个值分别求导,那么求导的结果一共会有$mnpq$个。那么求导的结果如何排列呢?方法有很多种。

    最直观可以想到的求导定义有2种:

    第一种是矩阵$F$对矩阵$X$中的每个值$X_{ij}$求导,这样对于矩阵$X$每一个位置(i,j)求导得到的结果是一个矩阵$\frac{\partial F}{\partial X_{ij}}$,可以理解为矩阵$X$的每个位置都被替换成一个$p \times q$的矩阵,最后我们得到了一个$mp \times nq$的矩阵。

    第二种和第一种类似,可以看做矩阵$F$中的每个值$F_{kl}$分别对矩阵$X$求导,这样矩阵$F$每一个位置(k,l)对矩阵$X$求导得到的结果是一个矩阵$\frac{\partial F_{kl}}{\partial X}$, 可以理解为矩阵$F$的每个位置都被替换成一个$m \times n$的矩阵,最后我们得到了一个$mp \times nq$的矩阵。

    这两种定义虽然没有什么问题,但是很难用于实际的求导,比如类似我们在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中很方便使用的微分法求导。

    目前主流的矩阵对矩阵求导定义是对矩阵先做向量化,然后再使用向量对向量的求导。而这里的向量化一般是使用列向量化。也就是说,现在我们的矩阵对矩阵求导可以表示为:$$\frac{\partial F}{\partial X} = \frac{\partial vec(F)}{\partial vec(X)}$$

    对于矩阵$F$,列向量化后,$vec(F)$的维度是$pq \times 1$的向量,同样的,$vec(X)$的维度是$mn \times 1$的向量。最终求导的结果,这里我们使用分母布局,得到的是一个$mn \times pq$的矩阵。

2. 矩阵对矩阵求导的微分法

    按第一节的向量化的矩阵对矩阵求导有什么好处呢?主要是为了使用类似于前面讲过的微分法求导。回忆之前标量对向量矩阵求导的微分法里,我们有:$$df= tr((\frac{\partial f}{\partial \mathbf{X}})^Td\mathbf{X})$$

    这里矩阵对矩阵求导我们有:$$vec(dF) =\frac{\partial vec(F)^T}{\partial vec(X)} vec(dX) = \frac{\partial F^T}{\partial X} vec(dX)$$

    和之前标量对矩阵的微分法相比,这里的迹函数被矩阵向量化代替了。

    矩阵对矩阵求导的微分法,也有一些法则可以直接使用。主要集中在矩阵向量化后的运算法则,以及向量化和克罗内克积之间的关系。关于矩阵向量化和克罗内克积,具体可以参考张贤达的《矩阵分析与应用》,这里只给出微分法会用到的常见转化性质, 相关证明可以参考张的书。

    矩阵向量化的主要运算法则有:

    1) 线性性质:$vec(A+B) =vec(A) +vec(B)$

    2) 矩阵乘法:$vec(AXB)= (B^T \bigotimes A)vec(X)$,其中$\bigotimes$是克罗内克积。

    3) 矩阵转置:$vec(A^T) =K_{mn}vec(A)$,其中$A$是$m \times n$的矩阵,$K_{mn}$是$mn \times mn$的交换矩阵,用于矩阵列向量化和行向量化之间的转换。

    4) 逐元素乘法:$vec(A \odot X) = diag(A)vec(X)$, 其中$diag(A)$是$mn \times mn$的对角矩阵,对角线上的元素是矩阵$A$按列向量化后排列出来的。

    克罗内克积的主要运算法则有:

    1) $(A \bigotimes B)^T = A^T \bigotimes B^T$

    2) $vec(ab^T) = b \bigotimes a$

    3) $(A \bigotimes B)(C \bigotimes D )=AC \bigotimes BD$

    4) $K_{mn} = K_{nm}^T, K_{mn}K_{nm}=I$

    使用上面的性质,求出$vec(dF)$关于$ vec(dX)$的表达式,则表达式左边的转置即为我们要求的$\frac{\partial vec(F)}{\partial vec(X)} $,或者说$\frac{\partial F}{\partial X} $

3. 矩阵对矩阵求导实例

    下面我们给出一个使用微分法求解矩阵对矩阵求导的实例。

    首先我们来看看:$\frac{\partial AXB}{\partial X}$, 假设A,X,B都是矩阵,X是$m \times n$的矩阵。

    首先求$dF$, 和之前第三篇的微分法类似,我们有: $$dF =AdXB$$

    然后我们两边列向量化(之前的微分法是套上迹函数), 得到:$$vec(dF) = vec(AdXB) = (B^T \bigotimes A)vec(dX)$$

    其中,第二个式子使用了上面矩阵向量化的性质2。

    这样,我们就得到了求导结果为:$$\frac{\partial AXB}{\partial X} =  (B^T \bigotimes A)^T = B \bigotimes A^T$$

    利用上面的结果我们也可以得到:$$\frac{\partial AX}{\partial X} =  I_n \bigotimes A^T$$$$\frac{\partial XB}{\partial X} =  B \bigotimes I_m$$

    来个复杂一些的:$\frac{\partial Aexp(BXC)D}{\partial X}$

    首先求微分得到:$$dF =A dexp(BXC)D = Aexp(BXC) \odot (BdXC)D  $$

    两边矩阵向量化,我们有:$$vec(dF) = (D^T \bigotimes A) vecexp(BXC) \odot (BdXC)  =  (D^T \bigotimes A) diag(exp(BXC))vec(BdXC) =  (D^T \bigotimes A) diag(exp(BXC))(C^T\bigotimes B)vec(dX) $$

    其中第一个等式使用了矩阵向量化性质2,第二个等式使用了矩阵向量化性质4, 第三个等式使用了矩阵向量化性质2。

    这样我们最终得到:$$\frac{\partial Aexp(BXC)D}{\partial X} = (D^T \bigotimes A) diag(exp(BXC))(C^T\bigotimes B)^T = (C \bigotimes B^T) diag(exp(BXC)) (D\bigotimes A^T )$$

4. 矩阵对矩阵求导小结

    由于矩阵对矩阵求导的结果包含克罗内克积,因此和之前我们讲到的其他类型的矩阵求导很不同,在机器学习算法优化中中,我们一般不在推导的时候使用矩阵对矩阵的求导,除非只是做定性的分析。如果遇到矩阵对矩阵的求导不好绕过,一般可以使用机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则中第三节最后的几个链式法则公式来避免。

    到此机器学习中的矩阵向量求导系列就写完了,希望可以帮到对矩阵求导的推导过程感到迷茫的同学们。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-05-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法
    在机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法中,我们讨论了定义法求解矩阵向量求导的方法,但是这个方法对于比较复杂的求导式子,中间运算会很复杂,同时排列求导出的结果也很麻烦。因此我们需要其他的一些求导方法。本文我们讨论使用微分法来求解标量对向量的求导,以及标量对矩阵的求导。
刘建平Pinard
2019/05/13
1.8K0
机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法
    在机器学习中的矩阵向量求导(一) 求导定义与求导布局中,我们讨论了向量矩阵求导的9种定义与求导布局的概念。今天我们就讨论下其中的标量对向量求导,标量对矩阵求导, 以及向量对向量求导这三种场景的基本求解思路。
刘建平Pinard
2019/04/27
1.2K0
机器学习中的矩阵向量求导(一) 求导定义与求导布局
    在之前写的上百篇机器学习博客中,不时会使用矩阵向量求导的方法来简化公式推演,但是并没有系统性的进行过讲解,因此让很多朋友迷惑矩阵向量求导的具体过程为什么会是这样的。这里准备用三篇来讨论下机器学习中的矩阵向量求导,今天是第一篇。
刘建平Pinard
2019/05/07
1.3K0
矩阵求导与实例
缘由 布局 求导的类别 从简单的例子说起 实例 SVM的对偶形式转换 Soft-SVM对偶形式转换 线性回归 logistic回归 参考资料 缘由 机器学习的很多算法表示中都采用了矩阵的形式,对算法的
用户1147754
2018/01/02
9490
矩阵微分
假定实值函数的向量变元 或者矩阵变元 本身无任何特殊结构,即向量或矩阵变元的元素之间是各自独立的。用数学公式表达如下:
hotarugali
2022/03/13
1.2K0
矩阵微分
矩阵求导术(下)
本文承接上篇 https://zhuanlan.zhihu.com/p/24709748,来讲矩阵对矩阵的求导术。使用小写字母x表示标量,粗体小写字母 表示列向量,大写字母X表示矩阵。矩阵对矩阵的求导采用了向量化的思路,常应用于二阶方法求解优化问题。
Datawhale
2019/11/18
8470
机器之心最干的文章:机器学习中的矩阵、向量求导
机器之心专栏 作者:七月 本文的目标读者是想快速掌握矩阵、向量求导法则的学习者,主要面向矩阵、向量求导在机器学习中的应用。因此,本教程而非一份严格的数学教材,而是希望帮助读者尽快熟悉相关的求导方法并在实践中应用。另外,本教程假定读者熟悉一元函数的求导。 本文公式太多,微信上展示会有一些问题。所以本文适合读者了解矩阵、向量求导,而详细地学习与分析请下载本文的PDF版。 PDF 下载地址:https://pan.baidu.com/s/1pKY9qht 所谓矩阵求导,本质上只不过是多元函数求导,仅仅是把把函数的
机器之心
2018/05/10
3.4K0
深度学习利器之自动微分(2)
本文和上文以 Automatic Differentiation in Machine Learning: a Survey为基础,逐步分析自动微分这个机器学习的基础利器。
罗西的思考
2021/10/18
1.8K0
深度学习利器之自动微分(2)
「 矩阵求导」学习笔记
导数的定义:假设有一个函数f:\mathbb{R} \rightarrow \mathbb{R},其输入输出都是标量。如果f的导数存在,那么这个极限被定义为:
曼亚灿
2023/05/18
4000
「 矩阵求导」学习笔记
详解SLAM中的李群和李代数(上)
最近阅读高翔大神的《视觉SLAM十四讲》这本书,感觉整本书写的非常的平实,用非常接地气的语言毫无保留的介绍了视觉SLAM的相关知识,非常值得一读。不过,在第4章出现的李群和李代数的相关概念就有点令人难以费解了。其实这段不是这本书的作者故意写的晦涩难懂,而是这部分知识属于数学或者物理专业才会学习的知识,普通的理工科专业的读者没有接触过这方面的知识。笔者也是在这个地方卡了壳,因此在本文中将李群和李代数相关的知识总结一下。
charlee44
2025/05/03
1650
深度学习与CV教程(4) | 神经网络与反向传播
本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记,对应的课程视频可以在 这里 查看。更多资料获取方式见文末。
ShowMeAI
2022/05/30
8410
深度学习与CV教程(4) | 神经网络与反向传播
PyTorch 学习 -2- 自动求导
PyTorch 中,所有神经网络的核心是 autograd 包。autograd 包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义 ( define-by-run )的框架,这意味着反向传播是根据代码如何运行来决定的,并且每次迭代可以是不同的。
为为为什么
2023/07/20
3910
【机器学习基础】机器学习的数学基础
  作为一门以数据及其模型为研究对象的学科,优化模型、分析模型性能等都需要数学手段的帮助。和其他学科一样,数学可以帮我们更清晰地描述和理解机器学习算法,也可以从理论上证明算法的有效性,是机器学习中必不可少的一环。本文将会介绍机器学习中常用的数学工具,为后面的学习打下基础。
Francek Chen
2025/01/23
2020
【机器学习基础】机器学习的数学基础
【机器学习数学基础】线性代数基础
线性代数 一、基本知识 本书中所有的向量都是列向量的形式: \[\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\\ \vdots \\x_n\end{bmatrix}\] 本书中所有的矩 \(\mathbf X\in \mathbb R^{m\times n}\) 都表示为: \[\mathbf X = \begin{bmatrix} x_{1,1}&x_{1,2}&\cdots&x_{1,n}\\ x_{2,1}&x_{2
10JQKA
2018/12/11
6480
【机器学习数学基础】线性代数基础
深度学习中的参数梯度推导(一)下篇
在《深度学习中的参数梯度推导(一)上篇》中,我们总结了各常见(向量对矩阵,矩阵对向量)的导数定义。我们还学习了矩阵微分和矩阵导数的关系,以及一些常见的矩阵微分性质。在本篇(下篇)将介绍矩阵导数中的链式法则以及专门针对标量对矩阵/向量求导的核心方法-迹技巧。最后,我们简单演习一下如何用矩阵求导来得到神经网络中的参数的梯度。
灯塔大数据
2020/08/04
1.7K0
深度学习中的参数梯度推导(一)下篇
斯坦福CS231n - CNN for Visual Recognition(4)-lecture4反向传播
  在神经网络中,对应的是损失函数LL,输入xx包含训练数据和神经网络的权重。比如,损失函数为SVMSVM,输入包括了训练数据xi,yix_i,y_i、权重WW和偏差bb。而训练集是给定的,权重则是可以改变的变量。因此,即使能用反向传播计算输入数据xix_i上的梯度,但在实践为了进行参数更新,通常也只计算参数(比如W,bW,b)的梯度。当然,xix_i的梯度有时仍然有用,比如将神经网络所做的事情可视化,以便于直观理解时。
李智
2018/08/03
6270
斯坦福CS231n - CNN for Visual Recognition(4)-lecture4反向传播
斯坦福NLP课程 | 第4讲 - 神经网络反向传播与计算图
教程地址:http://www.showmeai.tech/tutorials/36
ShowMeAI
2022/05/04
1K0
斯坦福NLP课程 | 第4讲 - 神经网络反向传播与计算图
机器学习 学习笔记(1)矩阵 导数 SVD
为奇排列或者偶排列,即其中出现的降序的次数为奇数或者偶数,例如(1,3,2)中降序次数为1,(3,1,2)中降序次数为2。
2018/09/03
1.5K0
机器学习 学习笔记(1)矩阵 导数 SVD
Deep Learning Chapter01:机器学习中线性代数
好久不见,大家好,我是北山啦。机器学习当中需要用到许多的数学知识,如今博主又要继续踏上深度学习的路程,所以现在在网上总结了相关的考研数学和机器学习中常见相关知识如下,希望对大家有所帮助。
北山啦
2022/10/31
5080
Deep Learning Chapter01:机器学习中线性代数
矩阵微分布局
在数学中, 矩阵微积分是多元微积分的一种特殊表达,尤其是在矩阵空间上进行讨论的时候。它把单个函数对多个变量或者多元函数对单个变量的偏导数写成向量和矩阵的形式,使其可以被当成一个整体被处理。
hotarugali
2022/03/10
4550
推荐阅读
相关推荐
机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档