前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习调参技巧一: DDPG算法训练动作选择边界值_分析解决

强化学习调参技巧一: DDPG算法训练动作选择边界值_分析解决

作者头像
汀丶人工智能
发布2022-12-21 14:52:52
6670
发布2022-12-21 14:52:52
举报
文章被收录于专栏:NLP/KGNLP/KG

1.原因:

选择动作值只在-1 1之间取值 actor网络输出用tanh,将动作规范在[-1,1],然后线性变换到具体的动作范围。其次,tanh激活区是有范围的,你的预激活变量(输入tanh的)范围太大,进入了tanh的饱和区,会导致梯度消失,而且tanh输出的自然就靠近边界了

2.解决方案:

1、网络的输入输出都是归一化之后的,buffer里的{s,a,r,s_}都是同一个数量级的, 2、修改reward能指导网络正确选择动作进行输出 3.输入的数据要标准化或者归一化,然后学习率调小一点。

建议换算法,DDPG改成TD3改动很小,SAC对超参数没这么敏感,不要死磕DDPG,可以参考曾伊言:如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(已完成)

3.个人最终解决方案:

之前设置隐藏层大小都是一致的,现在把神经元个数增加,然后输入大于输出就好了!

输入256 输出128

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.原因:
  • 2.解决方案:
  • 3.个人最终解决方案:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档