Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么在axis=0中将Softmax应用于策略梯度方法(增强算法)

问为什么在axis=0中将Softmax应用于策略梯度方法(增强算法)
EN

Stack Overflow用户

提问于 2022-02-07 04:51:51

回答 1查看 53关注 0票数 0

我正在读这本书的第四章-深度强化学习在行动(曼宁出版物)。本章解释了将强化学习应用于手推车-极点博弈的代码.只有两个行动可能-左，右。该模型接受作为向量编码的状态，并输出对应于两个动作的概率。该模型(用py手电筒开发)被定义为-

l1 = 4 
l2 = 150
l3 = 2 

model = torch.nn.Sequential(
    torch.nn.Linear(l1, l2),
    torch.nn.LeakyReLU(),
    torch.nn.Linear(l2, l3),
    torch.nn.Softmax(dim=0) 
)

最后，在axis=0上应用了软极大值层。我可以理解这是一种在两个动作(左或右)之间创建概率分布的方法。因此，当一个状态给定给这个模型时，它输出一个probabilities.For例子的二维向量- 0.25,0.75，令我费解的是，当一批状态被赋予这个模型时，软件最大值(因为它被应用于axis=0)将被应用于该批的第一个动作集，然后它将应用于该批的第二个动作集，而不是应用于该批的每个动作对，该批的第一个动作之和为1，该批的第二个动作之和为1。模型的输出样本如下-

tensor([[0.0541, 0.0580],
        [0.0542, 0.0556],
        [0.0542, 0.0579],
        [0.0555, 0.0592],
        [0.0578, 0.0597],
        [0.0556, 0.0590],
        [0.0578, 0.0596],
        [0.0603, 0.0598],
        [0.0616, 0.0595],
        [0.0602, 0.0596],
        [0.0616, 0.0594],
        [0.0600, 0.0594],
        [0.0614, 0.0592],
        [0.0622, 0.0585],
        [0.0611, 0.0589],
        [0.0617, 0.0582],
        [0.0606, 0.0585]], grad_fn=<SoftmaxBackward>)

第一个动作的和是1，第二个动作的和是一样的。为什么在策略梯度法中应用这样的softmax？

reinforcement-learning

国内短信0.038元/条起

99%到达率，支持发送验证码、通知和营销类短信，短信特惠低至 0.038元/条

EN

回答 1

Stack Overflow用户

发布于 2022-02-09 14:48:20

你需要在第二维上使用softmax，这样它就能计算出每一步的概率分布。只需将以下行更改为：

torch.nn.Softmax(dim=1)

一般来说，在大多数情况下，您将在策略梯度中应用softmax。我们总是关心对我们在那个州可以采取的行动的不信任。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71018893

复制

相关文章

Ubuntu 18.04上安装cuda「建议收藏」

深度学习 tensorflow gcc grep https

$ lspci | grep -i nvidia 我的显示为Tesla P800

全栈程序员站长

2022/09/28

1.9K0

Ubuntu 18.04上安装cuda「建议收藏」

在Ubuntu 18.04上安装WordPress

WordPress是一个非常流行的专注于博客的动态内容管理系统（CMS）。WordPress可以部署在LAMP或LEMP堆栈上。它具有的可扩展插件框架和主题系统允许网站所有者使用其简单但功能强大的发布工具。

eru

2018/09/05

7.8K0

在Ubuntu 18.04上安装WordPress

在Ubuntu 18.04上安装NVIDIA

在安装之前首先就是要禁用Nouveau的驱动，禁用该驱动的方法参照这篇https://www.linuxidc.com/Linux/2019-02/157171.htm。

小陈运维

2021/10/13

1.3K0

Ubuntu18.04下安装CUDA

从https://developer.nvidia.com/cuda-downloads，下载 cuda_9.1.85_387.26_linux.run文件

foochane

2019/05/23

1.9K0

在Ubuntu 18.04上安装Angular图文详解

npm typescript http git angularjs

在这篇文章中，我将向您展示如何在Ubuntu 18.04上安装Angular。 Angular是一个用于制作令人敬畏的网站的前端Web开发框架。

知忆

2021/06/06

2.8K0

jupyter在Ubuntu18.04上的安装

开源 python apt-get bash

用pip安装Jupyter 作为现有或有经验的Python用户，您可能希望使用Python的包管理器pip而不是Anaconda 来安装Jupyter 。如果你安装了Python 3（推荐）： python3 -m pip install --upgrade pip python3 -m pip install jupyter 如果你安装了Python 2： python -m pip install --upgrade pip python -m pip install jupyter

知识浅谈

2020/07/20

1.6K0

离线方式在Ubuntu 18.04 上安装Docker

容器 javascript 容器镜像服务 ubuntu https

https://download.docker.com/linux/ubuntu/dists/bionic/pool/stable/amd64/

田春峰-JCJC错别字检测

2019/12/26

4.9K0

在Ubuntu 18.04 LTS上安装Python 3.7

python ubuntu linux 打包

Python是最受欢迎和随需应变的通用编程语言之一。它是一种解释性的高级编程语言，支持多种编程范例，包括过程式，面向对象和函数式编程。由于其全面的标准库，它通常被描述为“py自带着电池”。

用户6543014

2020/04/02

6.5K0

ubuntu 18.04 上安装git

直接执行命令： apt install git 安装过程中如果出现了以下错误，需要更新一下 apt 包列表 Reading package lists... Done Building dependency tree Reading state information... Done Package git is not available, but is referred to by another package. This may mean that the package is mis

小鑫

2022/05/11

9960

Ubuntu18.04安装CUDA开发工具

我最近购入了一个TX1，然后安装系统的话是要用一个Ubuntu下的工具安装，然后体验了一下这个工具，感觉真的很不错。

云深无际

2022/02/09

2540

Ubuntu18.04安装CUDA开发工具

Ubuntu 18.04通过deb安装cuda 10.2

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/141671.html原文链接：https://javaforall.cn

全栈程序员站长

2022/08/24

5670

在ubuntu 18.04上编译VirtualBox

编译系统 ubuntu sudo virtualbox

https://download.virtualbox.org/virtualbox/

用户1423082

2024/12/31

760

在ubuntu 18.04上编译VirtualBox

ubuntu18.04上安装Docker

unity 容器镜像服务容器

镜像：类似虚拟机的镜像、用俗话说就是安装文件。容器：类似一个轻量级的沙箱，容器是从镜像创建应用运行实例，可以将其启动、开始、停止、删除、而这些容器都是相互隔离、互不可见的。仓库：类似代码仓库，是Docker集中存放镜像文件的场所。

李小白是一只喵

2020/04/24

7.9K1

在Ubuntu 18.04中安装pyen

最近正在重头梳理Python的基础知识，为了更好地使用Python进行开发，防止发生版本混乱（不同的第三方库有可能因为Python版本不兼容而报错），所以需要使用pyenv进行版本管理。 *** 通常来说，安装一个开源程序需要自己编译和下载相关依赖包，但是作者提供个一个简易的安装器，只需要一条命令即可搞定安装。

py3study

2020/01/16

1.2K0

【安装记录】ubuntu18.04+cuda 9.1+NVIDIA 390

网络安全 https 容器镜像服务容器 gcc

https://blog.csdn.net/hhhuua/article/details/80734092

Centy Zhao

2019/12/26

8600

如何在Ubuntu 18.04上安装Jenkins

jenkins ubuntu linux 网络安全

Jenkins是一个开源自动化服务器，可以自动执行持续集成和交付软件所涉及的重复技术任务。Jenkins是基于Java的，可以从Ubuntu软件包安装，也可以通过下载和运行其Web应用程序存档（WAR）文件来安装 - 该文件是构成在服务器上运行的完整Web应用程序的文件集合。

吴凌云

2018/10/09

4.7K0

如何在Ubuntu 18.04上安装R [快速入门]

云服务器 linux ubuntu

R是一种开源编程语言，专门用于统计计算和图形。在本教程中，我们将在Ubuntu 18.04服务器上安装R.

姚啊姚

2018/10/11

6.4K1

如何在Ubuntu 18.04上安装OwnCloud

bash 指令 bash apache linux ubuntu

OwnCloud是领先的开源文件共享和云协作平台，其服务和功能与DropBox和Google云端硬盘提供的服务和功能相似。但是，与Dropbox不同，OwnCloud没有数据中心的功能来存储托管文件。不过，您仍然可以共享文件，图像和视频等文件，仅举几例，并可以跨多个设备（例如智能手机，平板电脑和PC）访问它们。

星哥玩云

2022/08/08

7030

如何在Ubuntu 18.04上安装OwnCloud

如何在Ubuntu 18.04上安装Anaconda [快速入门]

python ubuntu anaconda linux

Anaconda是专为数据科学和机器学习工作流程而设计的，是一个开源包管理器，环境管理器，以及负责Python和R编程语言的分发。

木纸鸢

2018/09/28

21.7K0

如何在 Ubuntu 18.04 上安装 KVM

ubuntu linux kvm 虚拟化命令行工具

KVM(基于内核的虚拟机)是一个内置于Linux内核的开源虚拟化技术。它允许你基于 Linux 或者 Windows 运行多个隔离的客户机虚拟机器。每一个客户机都拥有自己的操作系统和专用的虚拟硬件,例如 CPU(s), 内存, 网络接口和存储。

雪梦科技

2020/05/11

1.9K0

相似问题

JQuery -.css(“display”)属性的问题

21

JS来监视CSS属性的变化，像"display:none"=>"display:block"？

45

CSS: Display属性，块

22

CSS "Display: none;“属性

52

使用jQuery重写'display‘css

32

活动推荐

云联络中心专属优惠，福利大放送！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例