首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

强化学习之策略梯度讲解

由于latex公式显示直接没法显示,本文章内容已同步发表在博客,请直接查看:

对于DQN来说使用一个网络直接逼近了值函数,最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说,很难全部计算所有的值函数来得到最好的策略,那么直接计算策略的方法就别提出来了。

回顾一下前面几篇,所谓的策略,其实就是状态到动作的映射数学表达为

我们用τ表示状态s到最后一个状态的一个序列,表示为:

那么奖励R(τ)是一个随机变量,没法直接作为目标函数被优化,因此采用了随机变量的期望作为目标函数:

J=∫r(τ)Pπ(τ)dτ(1)

因此强化学习的目标是找到最好的maxπ∫R(τ)Pπ(τ)dτ,从最优策略的角度来说,对于序列st,st+1....sT,最优的策略序列为:u∗0→u∗1→u∗2→...u∗T,总结为:找到最优策略:π∗:s→u∗。

继续从目标函数说起,由于要用神经网络来计算策略梯度,需要用一个网络结构去逼近策略,在此处我们假设神经网络的结构参数为θ,将目标函数由公式-1变为:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180615G1YL7G00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券