原标题:奖励随机化发现多智能体游戏中多样性策略行为,研究者提全新算法RPG
机器之心专栏
机器之心编辑部
ction-space 探索的算法,并且发现了很多有趣的、人类可以理解的智能体行为策略。除此之外,论文进一步提出了 RPG 算法的扩展:利用 RR 得到的多样性策略池训练一个新的具备自适应能力的策略。
分享快讯到朋友圈
领取专属 10元无门槛券
私享最新 技术干货