开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >DDPG策略网络的输出可以是概率分布而不是某个动作值吗？

问DDPG策略网络的输出可以是概率分布而不是某个动作值吗？
EN

Stack Overflow用户

提问于 2019-12-22 10:58:21

回答 1查看 120关注 0票数 1

我们知道，DDPG是一种确定性的策略梯度方法，其策略网络的输出应该是某个动作。但是有一次我尝试将策略网络的输出设为若干行动的概率分布，这意味着输出的长度大于1，并且每个行动都有自己的概率，并且它们的和等于1。输出的形式类似于随机策略梯度方法，但梯度是计算的，网络是以DDPG的方式更新的。最后，我发现结果看起来相当不错，但我不明白为什么它会工作，因为输出形式并不完全符合DDPG的要求。

reinforcement-learning

policy-gradient-descent

大数据产品特惠专场

BI、WeData新客仅9.9元！新客首单1折起！

EN

回答 1

Stack Overflow用户

发布于 2019-12-23 22:11:48

如果你也包括关于分布的梯度，那么它就会起作用，否则它只是偶然地起作用。

如果你做像这样的事情

通过softmax并返回到nn

的 backprop = nn(s)
a =
backprop

然后这是使用softmax分布的规则随机梯度，这在确定性梯度之前是非常常见的(有时仍然使用)。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59443606

复制

相关文章

曾经，我以为我很懂MySQL索引

云数据库 SQL Server 数据库 sql 二叉树数据结构

在关系数据库中，索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。

陈哈哈

2020/09/11

8070

曾经，我以为我很懂MySQL索引

匿名函数自调用_自己调用自己的函数叫

javascript html 打包 https 网络安全

我们知道一个HTML文件在被加载的时候是从根标签html依次往下的，在遇到link，script等标签引入的外部资源时，下载外部资源，并执行外部资源。在js中，表达式会被立即执行，也就是说，不管是引入的外部js文件还是嵌入在html文件中的js脚本，其中的表达式都会被立即执行。函数名是一个指向函数的指针。在JavaScript中，定义函数有常见的两种形式：函数声明和函数直接量（或者叫函数表达式）。函数声明：采用function定义声明函数的标准写法，包括function，函数名，函数体。如

全栈程序员站长

2022/11/09

2.6K0

这代码写的太烂了！你以为我真想写“垃圾代码”吗？

很多时候作为底层的“码农”我们并没有选择权，然后我们的青春就浪费在了重复写垃圾代码里，浪费在了“项目目标里”，自己得到的也就是比正常小白领多一点的薪水，但是自己的发展空间被严重限制了

搜云库技术团队

2019/09/26

1K0

我是不会运行你的代码吗？不，我是不会导入自己的数据!

常常遇到有人问起看到分享的教程导入数据的方式是data(dune)等直接调用系统的数据，而自己怎么读入自己的数据呢？

生信宝典

2022/01/18

1.5K0

我的细胞系还是我以为的细胞系嘛？

我们在做细胞实验的时候，经常会有这样的疑虑，细胞被那么多人蹂躏了那么多次了，那我现在操作的细胞当时我以为的那个细胞系嘛？会不会有人在传代的时候不小心把这个细胞系的名字写成了另外的名字，然后就这样一直传下去了呢。

医学数据库百科

2020/07/07

4700

关于Linux的grep -f命令，我以为我发现了bug

grep linux windows r 语言

今天，我像往常一样提取基因组的样本，我有一堆样本的ID，需要从所有的基因型的文件中提取出来。

邓飞

2021/09/03

1.2K0

一日一技：多个Python项目怎么调用我自己的工具函数？

在多年写代码的过程中，我总结了不少常用的工具函数。这些工具函数有的能够实现快速重试网络请求，有的可以把任意格式的时间转成标准格式，还有的可以自动生成正则表达式。

青南

2022/05/23

1.1K0

一日一技：多个Python项目怎么调用我自己的工具函数？

我准备自己做一个卫星

开源硬件开发 https sas 网络安全

我是不是膨胀了，连卫星都敢做了？不知道你是否有想过自己制作一颗卫星吗？看完本篇文章，你也能自己做个卫星，要想上天就差个火箭了！

单片机点灯小能手

2020/07/17

1.1K0

我以为我很懂Promise，直到我开始实现Promise/A+规范

2我一度以为自己很懂Promise，直到前段时间尝试去实现Promise/A+规范时，才发现自己对Promise的理解还过于浅薄。在我按照Promise/A+规范去写具体代码实现的过程中，我经历了从“很懂”到“陌生”，再到“领会”的过山车式的认知转变，对Promise有了更深刻的认识！

程序员白彬

2021/03/09

6480

我以为我很懂Promise，直到我开始实现Promise/A+规范

我以为我很懂Promise，直到我开始实现Promise/A+规范

javascript https node.js 网络安全 linux

我一度以为自己很懂Promise，直到前段时间尝试去实现Promise/A+规范时，才发现自己对Promise的理解还过于浅薄。在我按照Promise/A+规范去写具体代码实现的过程中，我经历了从“很懂”到“陌生”，再到“领会”的过山车式的认知转变，对Promise有了更深刻的认识！

程序员白彬

2021/03/23

8000

我可以在一个构造函数中调用另一个构造函数么

但在 C++11 版本之前是不可以的，不过你可以通过两种方式来模拟实现（可以参见 the C++ FAQ entry），

ClearSeve

2022/02/10

3.2K0

[C#]我自己写的一个对字节中每位进行修改值的函数

byte初始状态： 11111111 byte修改第0位后的结果： 01111111 byte修改第1位后的结果： 00111111 byte修改第2位后的结果： 00011111 byte修改第3位后的结果： 00001111 byte修改第4位后的结果： 00000111 byte修改第5位后的结果： 00000011 byte修改第6位后的结果： 00000001 byte修改第7位后的结果： 00000000

静默虚空

2022/05/07

2.2K0

GitHub：我开源我自己；CEO：不存在的

https 网络安全 github 开源

TypeScript的开发者Resynth忽然Po了篇文章，表示代码托管服务GitHub的全部源代码被泄露。

龙哥

2020/11/19

5390

GitHub：我开源我自己；CEO：不存在的

我卷我自己——cvpr2021：Involution

卷积神经网络 kernel

本文重新回顾了常规卷积的设计，其具有两个重要性质，一个是空间无关性，比如3x3大小的卷积核是以滑窗的形式，滑过特征图每一个像素（即我们所说的参数共享）。另外一个是频域特殊性，体现在卷积核在每个通道上的权重是不同的。

BBuf

2021/03/25

1.9K1

故障分析 | MySQL：我的从库竟是我自己！？

ip mysql report 部署数据

爱可生 DBA 团队成员，负责项目日常问题处理及公司平台问题排查。热爱互联网，会摄影、懂厨艺，不会厨艺的 DBA 不是好司机，didi~

爱可生开源社区

2023/08/18

2180

故障分析 | MySQL：我的从库竟是我自己！？

用XGB调XGB?"我"调"我"自己？

https 机器学习网络安全

上篇《深恶痛绝的超参》已经介绍了很多实用的调参方式，今天来看一篇更有趣的跳槽方法，用ML的方式调ML的模型我们用我们熟悉的模型去调我们熟悉的模型，看到这里很晕是不是，接下来我们就看看XGBoost如何调XGBoost。

炼丹笔记

2021/06/15

5000

我什么也不懂，能搞个自己的网站吗？能！

容器容器镜像服务网站建设 bash

sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ software-properties-common

我被狗咬了

2019/11/12

2.3K0

重构 -- 我是一个类，难道我不配有专属的测试代码吗？

腾讯云测试服务编程算法网络安全

刚看到这个观点的时候，我是很不以为然的，谁让它标题不吸引人>>>《构建测试体系》就这标题，谁不知道要测试啊。还好我没有“以貌取文”，我认真的看了下去。

看、未来

2020/08/26

7730

我眼中的变量聚类

编程算法文件存储数据分析

‍‍‍‍‍ 连续变量压缩的基本思路为：建模之前使用主成分、因子分析或变量聚类的方法进行变量压缩，后续建模时使用向前法、向后法、逐步法或全子集法进一步进行变量细筛。虽然方法的名称叫做变量聚类，但却并不是聚类分析，而是一种主成分分析的方法。

许卉

2019/07/15

1.5K0

点击加载更多

相似问题

我可以为spring提供我自己的变量插值器吗？

10

Powershell:我可以为我自己的函数参数使用一个现有的枚举吗？

110

我可以为我自己的类创建资源属性吗？

10

我可以为carrot2使用我自己的标签吗？

16

我可以为我的业务逻辑创建自己的状态代码吗？

22

活动推荐

图片生成与编辑，新用户19.9元起！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例