本文介绍的是 ICLR 2020 接收论文《Network Randomization: A Simple Technique for Generalization in Deep Reinforcement Learning》,论文作者来自韩国科学技术院、密歇根大学、谷歌。
作者|wang王
编辑 | 丛末
论文地址:arxiv.org/abs/1910.05396
深度强化学习中的智能体通常无法在不可见环境里训练,这一点在高维状态空间(如图像)上进行训练时尤为突出。本文通过在输入观测样本中引入随机扰动,随机化(卷积)神经网络,提高智能体的泛化能力,使用基于蒙特卡洛近似的推理方法减小随机化方差。受训练的智能体在不同随机环境中学习保持不变的鲁棒特征后,可以适应崭新的领域。在2D CoinRun平台、3D DeepMind Lab探索平台和3D机器人控制任务中进行实验,对于同一优化目标,本文提出的方法明显优于其他各种正则化和数据增强方法。
1
研究背景与研究目标
深度强化学习(RL)已被广泛应用于各种领域,然而智能体往往过于适应训练环境,但因缺乏泛化能力而在医疗、金融等领域的应用变得不可靠。
智能体泛化可以通过视觉变化、不同的结构和动力学过程来表征。本文关注任务泛化,经过训练的智能体在测试时采用各种不可见视觉模式,例如图1中背景、地板和其他目标物的不同样式。作者发现,智能体完全失败是因为视觉变化很小,从高维输入观测样本(如图像)中学习泛化特征是一项挑战。
图1:(a)是通过重新初始化随机层的参数而生成的随机输入示例,(b)(c)(d)是实验环境示例。
本文的主要贡献是开发一种简单的随机化技术,提高各种不可见视觉模式任务的泛化能力。主要思想是利用随机(卷积)网络生成随机输入(如图1(a)),将智能体(或其策略)送入网络进行训练。具体来讲,在每次迭代时重新初始化随机网络的参数,鼓励智能体在一系列受扰动的低级特征下(各种纹理、颜色或形状)进行训练。
2
通用网络随机化技术
本文使用标准强化学习框架开展研究工作,其中一个智能体在离散时间内与环境交互。在每个时间步长t上,智能体从环境中接收状态,并根据其策略π选择动作。环境返回奖励后,智能体转入下一个状态。回报是时间步长t内的总累积折扣回报,其中折扣因子γ∈(0,1)。强化学习目标是最大化每个状态的预期回报。
1、使用随机输入观测值训练智能体
引入随机网络,其参数φ初始化为先验分布(例如Xavier正态分布),与原始输入s不同,使用随机化输入训练智能体,例如对于基于策略的方法,通过最小化以下策略梯度目标函数来优化策略网络π的参数θ。
(1)
其中是一组具有累积回报的历史转换,通过在每次迭代中重新初始化随机网络的参数φ,使用各种随机的输入观测值训练智能体(见图1(a))。即环境由不同的视觉模式生成,随机化网络使其具有相同的语义,智能体通过学习不变特征来适应新环境。
为了学习更多的不变特征,还要考虑隐藏特征和随机观测值之间特征匹配(FM)损失:
(2)
其中表示策略π倒数第二层的输出。将隐藏特征和随机输入相结合,根据输入观测值的变化学习更多的不变特征。总损失计算为(3)式,其中β > 0是超参数。
(3)
随机网络详细介绍
使用单层卷积神经网络(CNN)作为随机网络,其输出与输入具有相同的维数。为了重新初始化随机网络的参数,使用以下混合分布:
其中I是恒等核,是正常数,N表示正态分布,分别表示输入和输出通道数。因为只有随机输入的训练会使训练复杂化,故以概率选择隐藏特征输入。Xavier正态分布使输入s和随机输入的方差趋于稳定,故利用Xavier正态分布进行随机化。
消除视觉偏差
为验证该方法的有效性,在Kaggle的猫狗数据库上进行了图像分类实验。构建的数据集具有以下不良偏差:训练集由亮狗和暗猫组成,而测试集由暗狗和亮猫组成。由于CNN偏向于纹理或颜色,而不是形状,因此预计分类器会基于不良偏差(例如亮度和颜色)做出判定。表1显示ResNet-18由于过度偏向于训练数据中的不良偏差而不能有效泛化。为解决此问题,可以应用灰度、剪切、反转和颜色抖动等图像处理方法。然而,与本文的方法相比,其在提高泛化能力方面并不奏效。这证实了本文方法通过改变图像中属性和实体的视觉外观,同时有效地保留语义信息,可以使DNN捕捉到更多像形状一类的有价值信息,不需要用额外信息来消除不良偏差。
表1 基于猫狗大战数据集的分类精度
2、微小方差推断方法
由于随机网络的参数是从先验分布中提取的,用随机神经网络建模策略。
训练过程(例如参数随机化)包含使用蒙特卡洛(MC)近似(每次迭代一个样本)训练随机模型。因此在推断或测试时,通过将期望值近似如下来选择动作a:
其中和M是MC样本数。也就是说,为每个观测值生成M个随机输入,然后对它们的决策进行聚合,结果表明,该估计器通过更精确地逼近后验分布来提高训练智能体性能。
3
实验
1、基线和实验细节
对于CoinRun和DeepMind Lab实验,以IMPALA中使用的CNN体系结构作为策略网络,并使用近端策略优化(PPO)算法来训练智能体。在每个时间步长上,将64*64的观察帧作为智能体的输入,并使用256步展开来收集轨迹以进行训练。对于超现实机器人实验,采用CNN结合LSTM结构作为策略网络,应用分布式PPO算法训练智能体。在不可见环境中每10M时间步长测量一次性能,并记录3次运行的平均值和标准偏差。本文提出了一种利用随机网络和特征匹配(FM)损失增强PPO的方法,使用β=0.002作为FM损失的权重,使用=0.1作为跳过随机网络的概率,使用M=10作为MC近似,使用核大小为3的单层CNN作为随机网络。
2、CoinRun实验
小尺度环境下消融研究
相比正则化技术和数据增强技术,本文提出的方法最有效。随机输入的训练会降低训练效果,但DNN的高表达能力弥补了这一点。通过优化FM损耗,可进一步提高在不可见环境下的性能。为了验证MC近似在测试时的有效性,通过改变MC样本的数量来测量在不可见环境中的性能。图2(d)显示了50次评估的平均值和标准偏差。通过增加MC样本的数量可以改善性能及其方差,但这种改进在10个样本左右是饱和的,因此使用10个样本进行以下实验。
图2:(a)从不同环境中收集多个片段,将(b)PPO和t-SNE构造的(c)PPO+ours优化训练智能体并可视化隐藏表示,其中点的颜色表示相应观测的环境。(d)不同数量的MC样本的平均成功率。
嵌入分析
分析受训练智能体的隐藏表示在不可见的环境中是否表现出有意义的抽象概念。使用t-随机临近嵌入(t-SNE)算法将训练智能体的倒数第二层上的特征可视化并简化为二维。图2(a)显示了人类示范者在可见和不可见环境中拍摄的轨迹投影。来自可见和不可见环境的轨迹在智能体的隐藏空间上对齐,而基线产生分散和不相连的轨迹。这意味着本文方法使智能体能够学习稳定和鲁棒的特征。
为了定量地评价隐藏表示的性能,还测量了循环一致性。给定两个轨迹V和U,首先在另一个轨迹中找到其最近邻项。其中表示智能体倒数第二层的输出,在V中找到的最邻近项。定义为循环一致性,如果,则可以返回原点,循环一致性意味着两个轨迹在隐藏空间中精确对齐。还通过测量是否在VUJV和VJUV两条路径上保持循环一致性来评估三向循环一致性,其中J是第三条轨迹。与图2(C)所示的结果类似,与一般PPO训练的智能体相比,本文方法显著提高了循环一致性。
大规模实验结果
在一个固定的500级CoinRun集上评估泛化能力。为了明确区分可见和不可见环境,使用一半可用的主题(即背景、地板、智能体和移动障碍物的样式)进行训练,并测量由不可见的主题组成的1000个不同级别的性能。如图3(a)所示,本文方法在很大程度上优于所有基线方法,特别是成功率从39.8%提高到58.7%。
3、DeepMind Lab和超现实机器人控制实验结果
根据标准的探索任务设计的,目标对象被放置在三维迷宫中的一个房间中。在这项任务中,智能体的目标是在90秒内收集尽可能多的目标对象,以最大化奖励。一旦智能体收集目标对象将获得10分,并重新定位到一个随机位置。尽管基线智能体通过在可见的环境中学习这个简单的策略而获得高分,图3(b)显示它们无法适应未知的环境。网络随机化方法训练的智能体在可见和不可见的环境中都能获得高分。这些结果表明随机化方法可以从高维和复杂的输入观测样本中学习广义特征。
图3 不同环境下受训练智能体性能曲线图
Sawyer机器人如果成功提升随机放置在桌子上的块,将获得奖励。在单一的环境中训练智能体,并在五个不可见的环境中使用不同样式的表和块进行测试。图3(c)表明,与不可见环境中的所有基线相比,网络随机化方法在保持其在已观测环境中的性能的同时,获得了显著的性能增益,说明网络随机化方法可以保持基本属性不变。
4
总结
本文讨论了RL中的泛化问题,为了提高泛化能力,将CNN的第一层随机地扰动低层特征,例如各种纹理、颜色或形状。本方法通过产生各种视觉输入观察值鼓励智能体学习不变性和鲁棒性特征。这种不变性特征对于其他相关的课题,如RL中的对抗性防御、仿真到实践的迁移、迁移学习和在线适应等都有借鉴意义。
领取专属 10元无门槛券
私享最新 技术干货