分层强化学习(HRL)是一种有前景的方法,用于管理多个抽象层次上的任务复杂性并加速长视野智能体探索。然而,分层策略的有效性严重依赖于关于技能定义和任务分解的先验知识和手动假设。
本文提出了一种基于结构信息原则的新型框架SIDM,用于在单智能体和多智能体场景中进行分层决策。我们工作的核心是利用嵌入在决策过程中的结构信息,通过环境抽象自适应和动态地发现和学习分层策略。
具体而言,我们提出了一种抽象机制,处理历史状态-动作轨迹以构建状态和动作的抽象表示。我们定义并优化了有向结构熵——一种量化抽象状态间转移动态不确定性的度量——以发现捕捉强化学习环境中关键转移模式的技能。
基于这些发现,我们为单智能体场景开发了基于技能的学习方法,为多智能体场景开发了基于角色的协作方法,这两种方法都可以灵活集成各种底层算法以提升性能。在具有挑战性的基准测试上的广泛评估表明,我们的框架显著且一致地优于最先进的基线方法,根据平均奖励、收敛时间步和标准差衡量,策略学习的有效性、效率和稳定性分别提高了高达32.70%、64.86%和88.26%。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。