
适用于:
策略、非策略学习:

贪婪策略梯度法如果用V(s),需要MDP已知 对于已知MDP,可以通过策略迭代的方法,DP到最优策略

要实现不基于模型的控制,需要满足两个条件:
用Q(s,a),不需要已知MDP

每个箭头对应一个段,Prediction一次,Control一次

保证试验进行一定次数是,所有a-s状态都被访问到很多次




由贝尔曼公式推导


要保证Q值收敛,需要服从下列2个条件

与TD(λ)类似,扩展q的视野


在正向视角中,迭代一次Q值,需要完整的一次episode 为了解决这个问题,引入迹的概念,实现incremental update


Attention:迹E是属于episode的,切换episode后,E要归零

引入了概率缩放系数,判断两个策略动作概率函数


利用期望分布的概念,在更新目标前x一个系数,对当前策略的置信度


在学习过程中:







区别在于:
