我们知道,DDPG是一种确定性的策略梯度方法,其策略网络的输出应该是某个动作。但是有一次我尝试将策略网络的输出设为若干行动的概率分布,这意味着输出的长度大于1,并且每个行动都有自己的概率,并且它们的和等于1。输出的形式类似于随机策略梯度方法,但梯度是计算的,网络是以DDPG的方式更新的。最后,我发现结果看起来相当不错,但我不明白为什么它会工作,因为输出形式并不完全符合DDPG的要求。
发布于 2019-12-23 22:11:48
如果你也包括关于分布的梯度,那么它就会起作用,否则它只是偶然地起作用。
如果你做像这样的事情
通过softmax并返回到nn
然后这是使用softmax分布的规则随机梯度,这在确定性梯度之前是非常常见的(有时仍然使用)。
https://stackoverflow.com/questions/59443606
复制