Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >矢量化softmax梯度

问矢量化softmax梯度
EN

Stack Overflow用户

提问于 2019-12-11 13:30:00

回答 2查看 1K关注 0票数 1

我有一个softmax层(只有激活本身，没有将输入乘以权重的线性部分)，我想让它成为一个反向传递。

我在上找到了很多关于它的教程/答案，但它们似乎都使用X作为(1, n_inputs)矢量。我想使用它作为(n_samples, n_inputs)数组，并且仍然有一个正确的向前/向后传递的矢量化实现。

我已经编写了以下向前传递，对每一行/样本的输出进行标准化(是否正确？)：

import numpy as np

X = np.asarray([
    [0.0, 0.0],
    [0.0, 1.0],
    [1.0, 0.0],
    [1.0, 1.0]], dtype=np.float32)

def prop(self, X):
    s = np.exp(X)
    s = s.T / np.sum(s, axis=1)
    return s.T

它为我提供了前向传播(包括其他层)的最终结果：

Y = np.asarray([
       [0.5       , 0.5       ],
       [0.87070241, 0.12929759],
       [0.97738616, 0.02261384],
       [0.99200957, 0.00799043]], dtype=np.float32))

因此，这是softmax的输出，如果它是正确的。现在，我应该如何写向后传递？

我已经推导出softmax的导数为：

1)如果i=j：p_i*(1 - p_j)，

2)如果i!=j：-p_i*p_j，

哪里

我试着计算导数为：

ds = np.diag(Y.flatten()) - np.outer(Y, Y)

但是它导致了8x8矩阵，这对于下面的反向传播没有意义...正确的写法是什么？

backpropagation

EN

回答 2

Stack Overflow用户

发布于 2020-06-16 01:18:02

我一直在处理同样的问题，最终想出了一种方法来向量化softmax Jacobian的批量实现。这是我自己想出来的，所以我不确定这是不是最好的方法。这是我的想法：

import numpy as np
from scipy.special import softmax

def Jsoftmax(X):
    sh = X.shape
    sm = softmax(X, axis = 1)
    DM = sm.reshape(sh[0],-1,1) * np.diag(np.ones(sh[1])) # Diagonal matrices
    OP = np.matmul(sm.reshape(sh[0],-1,1), sm.reshape(sh[0],1,-1)) # Outer products
    Jsm = DM - OP
    return Jsm

它产生了一个(n_samples, n_inputs, n_inputs)-shaped数组，我认为它可以通过np.matmul函数在反向传播中使用，以正确地预乘dJ_dA数组。

应该注意的是，softmax几乎完全用作最后一层，并且通常具有交叉进入损失目标函数。在这种情况下，目标函数相对于softmax输入的导数可以更有效地找到为(S - Y)/m，其中m是批次中的示例数量，Y是批次的标签，S是softmax输出。这在下面的link中进行了解释。

票数 2

EN

Stack Overflow用户

发布于 2019-12-12 06:50:14

在编写softmax函数时，我发现这个问题非常有用：Softmax derivative in NumPy approaches 0 (implementation)。希望能有所帮助。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59286911

复制

相关文章

从视频到音频：使用VIT进行音频分类

架构模型视频数据音频

来源：Deephub Imba 本文约2000字，建议阅读5分钟本文中，我们将利用ViT - Vision Transformer的是一个Pytorch实现在音频分类数据集GTZAN数据集-音乐类型分类上训练它。就机器学习而言，音频本身是一个有广泛应用的完整的领域，包括语音识别、音乐分类和声音事件检测等等。传统上音频分类一直使用谱图分析和隐马尔可夫模型等方法，这些方法已被证明是有效的，但也有其局限性。近期VIT已经成为音频任务的一个有前途的替代品，OpenAI的Whisper就是一个很好的例子。本文中，

数据派THU

2023/03/29

1.3K0

从视频到音频：使用VIT进行音频分类

从视频到音频：使用VIT进行音频分类

nlp scale 音频

就机器学习而言，音频本身是一个有广泛应用的完整的领域，包括语音识别、音乐分类和声音事件检测等等。传统上音频分类一直使用谱图分析和隐马尔可夫模型等方法，这些方法已被证明是有效的，但也有其局限性。近期VIT已经成为音频任务的一个有前途的替代品，OpenAI的Whisper就是一个很好的例子。本文中，我们将利用ViT - Vision Transformer的是一个Pytorch实现在音频分类数据集GTZAN数据集-音乐类型分类上训练它。

一点人工一点智能

2023/01/30

1.4K0

从视频到音频：使用VIT进行音频分类

从视频到音频：使用VIT进行音频分类

pytorch nlp scale 音频

就机器学习而言，音频本身是一个有广泛应用的完整的领域，包括语音识别、音乐分类和声音事件检测等等。传统上音频分类一直使用谱图分析和隐马尔可夫模型等方法，这些方法已被证明是有效的，但也有其局限性。近期VIT已经成为音频任务的一个有前途的替代品，OpenAI的Whisper就是一个很好的例子。

deephub

2023/02/01

1.1K0

用户输入括号是否匹配

public class brackets { /*算法*/ public static boolean isMatch(String str) { int i = 0; char e, x; SqStackClass<Character> st = new SqStackClass<Character>(); //建立一个顺序栈 while (i < str.length()) {

楠羽

2022/11/18

1.1K0

解答：EasyDSS视频点播时音频是否可以设置为默认开启？

云点播云直播移动直播

EasyDSS视频直播点播平台集视频直播、点播、转码、管理、录像、检索、时移回看等功能于一体，可提供音视频采集、视频推拉流、播放H.265编码视频、存储、分发的视频流可覆盖全终端等视频能力服务。

TSINGSEE青犀视频

2022/06/29

1.4K0

Redis是否可以存图片、视频？

云数据库 Redis®存储数据库 mongodb sql

前几天看到某大型家电工厂的工业互联网系统架构图，发现用MongoDB存储图片及视频。那Redis同样也是Json类型的远程数据字典服务器，也可以用于存储图片、视频。实际Redis可以用512MB的空间存储用于存储字符串型的数据。

希望的田野

2019/09/24

9.8K0

Redis是否可以存图片、视频？

java获取窗口_获取窗口句柄[通俗易懂]

windows 编程算法

示例：使用FindWindow函数获取窗口句柄，然后获得窗口大小和标题，并且移动窗口到指定位置。

全栈程序员站长

2022/09/16

5.1K0

cloudbase-init用户是否可以禁用或删除

windows server windows 云服务器

cloudbase-init是初始化程序，涉及很多功能，比如购买机器时、重装系统时、重置密码时指定的密码的生效，购买机器时、重装系统时指定的hostname的生效，购买机器时指定的userdata的生效等重要功能。

Windows技术交流

2021/09/28

4.8K0

三十、是否可以使用 count(*)

一、是否可以使用 count(*) 在 SQL 中，COUNT() 函数返回匹配指定条件的函数。序号COUNT用法作用描述1COUNT(*)返回总记录数，包含 NULL 值2COUNT(1)与COUNT(*)的作用一样3COUNT(column_name)返回指定列的数目，NULL值不统计4COUNT(DISTINCT column_name)返回指定列不同值的数目，NULL值不统计 Tip： COUNT(*) 与 COUNT(column_name) 的作用不一样，如果列值包含 NULL ，统计结果就

喵叔

2022/05/06

5040

read命令从键盘中获取标准输入

read命令是用于从终端或者文件中读取输入的内部命令，read命令读取整行输入，每行末尾的换行符不被读入。在read命令后面，如果没有指定变量名，读取的数据将被自动赋值给特定的变量REPLY。下面的列表给出了read命令的常用方式：

前Thoughtworks-杨焱

2021/12/08

2.2K0

C# 使用ffmpeg视频提取音频和音频转码

视频处理命令行工具

在工作中我们需要对手机的录音再网页上播放，手机录音文件格式有以下几种：amr|mp3|m4a|wav|wma|FLAC|AAC|MMF|M4R|OGG|MP2|WV，需要对其转换为网页能播放的格式mp3。我们可以使用ffmpeg.exe进行处理。

爱上歆随懿恫

2022/08/10

3K0

C# 使用ffmpeg视频提取音频和音频转码

JS预加载视频音频/视频获取截图技巧分享原

有空实验后贴代码。参考文档里有解决预加载音视频，以及获取截图的技巧，文章内容提到跨域资源的解决方法。

晓歌

2018/08/15

2.6K0

Java判断输入ip是否合法的工具类，拿上就可以使用

java ip 工具类

目录 1 实现 1 实现 /** * 判断IP地址的合法性，这里采用了正则表达式的方法来判断 return true，合法 */ public static boolean ipCheck(String text) { if (text != null && !text.isEmpty()) { // 定义正则表达式 String regex = "^(1\\d{2}|2[0-4]\\d|25[0-5]|[1-9]\\d|[1-9])\\." + "(1\\d{2}|2[

一写代码就开心

2022/12/02

1.4K0

【iOS 开发】同步快速判断视频是否可以播放

拿到一个视频的 url 地址（无论是远程还是本地），有时候在播放之前需要检测该视频是否可以播放（本地可能是文件损坏，远端地址情况更复杂），下面介绍两种适用不同情况的方法来实现。

KyXu

2019/04/11

2.2K0

SQL里是否可以使用JOIN

很多公司都禁止程序员在 SQL 中使用 JOIN，至于原因则出奇的一致：用 JOIN 慢。不过我从没见过谁来论证为什么用 JOIN 慢，结果这个人云亦云的结论越传越广，让我觉得是时候来讨论一下这个看似正确的结论了。

LA0WAN9

2021/12/14

6170

大多数程序都在解决最终用户问题，为此通常需要从用户那里获取一些信息。在程序需要一个名字时，你需要提示用户输入该名字；程序需要一个名字时，你需要提示用户输入一系列名字。

狼啸风云

2019/01/18

1K0

从SpringMVC获取用户信息谈起

上周末拜读了一位牛人的公众号文章<[Token认证，如何快速方便获取用户信息](https://mp.weixin.qq.com/s/Qi82d5xmlYwiuaGRSn54uw)>，语言风趣，引人入胜，为了表示涛涛敬仰之情，已经转载到自己的公众号了。

A稻田守望者

2019/09/30

1.6K0

从SpringMVC获取用户信息谈起

从DY用户页面获取作品列表

signature 编码测试服务端数据

本文内容是其中一种方案，从用户主页的HTML响应内容中抽取user信息和作品列表数据。

李玺

2023/04/22

1.9K0

点击加载更多

相似问题

React可变引用，更新函数中的状态

111

我对可变类的“引用透明性”的理解正确吗？

24

具有Cap的可变状态

13

将可变数量的引用传递给具有可变模板的函数。

23

函数式编程中的引用透明性

24

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例