中的时间依赖的变量
?
联系起来, 对应的
?
以时间为索引的集合
?
, 其中
?
中的变量并不依赖于时间, 在
?
中的
?
就对应
?
中的
?
.
给出参数
?
的增量形式:
?...需要注意的是baseline是独立于其他变量和输出的, 我们称具有以上格式的算法为段落式的REINFORCE算法
给出完整的权值修改公式:
?...多参数分布的REINFORCE
REINFORCE框架的一个有趣的应用就是对于单元的学习算法的发展决定了它们的随机标量输出, 输出来自于多参数分布而不是使用半线性随机单元的单参数分布....我们只需要将无偏估计进行反向传播即可
7.2 通过随机数字生成器的反向传播
考虑一个随机的半线性单元, 并且假设有这么一个函数
?
,
?
对输出
?...的非线性函数的话. 然而, 如果输出是一个随机数生成器, 可以被写成一个参数可微的函数, 那么我们就可以利用确定性的计算.
考虑一个正态随机数生成器, 比如高斯单元, 输出
?
根据
?
和
?