在深度强化学习中,当优化新解决方案时,如果优化器能够倾向于先前的解决方案,将会带来帮助。
今年神经信息处理系统大会(NeurIPS)上,我们提出了一种新优化器,能更好地应对强化学习的困难。该优化器采用称为近端更新的简单技术,通过确保神经网络权重平稳缓慢变化来抵御噪声更新。为实现这一点,在没有迹象表明会损害智能体性能的情况下,我们将网络导向其先前的解决方案。
在论文中,我们将DQN智能体视为解决一系列优化问题。每次迭代时,新的优化问题都基于先前的迭代结果(即上次迭代产生的网络权重)。在深度强化学习文献中,这个先前迭代也称为目标网络,是我们倾向于靠拢的解决方案。
虽然目标网络编码了先前的解决方案,但第二个网络(文献中称为在线网络)负责寻找新解决方案。该网络通过朝最小化DQN目标的方向更新每一步。
最小化DQN目标所需的梯度向量需要足够大,以抵消朝向先前解决方案(目标网络)的默认引力。如果在线网络和目标网络接近,近端更新将表现得类似于标准DQN更新。但如果两个网络相距较远,近端更新可能与DQN更新显著不同,因为它会鼓励缩小两个网络之间的差距。
在我们的公式中,可以调整先前解决方案施加的引力程度,噪声较大的更新需要更高的引力。虽然近端更新导致神经网络参数变化较慢,但也导致在获得高奖励方面改进更快,这是强化学习中主要关注量。
在学习设置中评估方法时,我们将近端更新添加到两个标准RL算法:上述DQN算法和更具竞争力的Rainbow算法。
我们在标准55款Atari游戏上测试了新算法(称为带近端更新的DQN和Rainbow Pro)。从结果图可以看出:
为确认近端更新确实导致更平滑缓慢的参数变化,我们测量了连续DQN解决方案之间的范数差异。预期使用近端更新时更新幅度会更小。在下图中,我们在测试的四款不同Atari游戏上证实了这一预期。
总体而言,我们的经验和理论结果支持这一主张:在深度强化学习中优化新解决方案时,优化器倾向于先前解决方案是有益的。更重要的是,我们看到深度强化学习优化的简单改进能带来智能体性能的显著积极收益。我们认为这证明进一步探索深度强化学习中的优化算法将富有成果。
我们已在GitHub上发布解决方案的源代码。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。