Temporal Difference Learning for Estimating V
目标:在给定由于遵循策略π\piπ而产生的所有轮次的条件下估计Vπ(s)V^\pi(s)Vπ(s)
MDP...−Vπ(s))V^\pi(s) = V^\pi(s)+\alpha(G_{i, t}-V^\pi(s))Vπ(s)=Vπ(s)+α(Gi,t−Vπ(s))
灵感:已经有一个VπV^\piVπ的估计器,...使用下面的方法估计回报的期望
Vπ(s)=Vπ(s)+α([rt+γVπ(st+1)]−Vπ(s))V\pi(s) = V\pi(s) + \alpha([r_t+\gamma V^\pi(s_{t+...π\piπ而产生的所有轮次的条件下估计Vπ(s)V^\pi(s)Vπ(s) (同上)
s1,a1,r1,s2,a2,r2,...s_1,a_1,r_1,s_2,a_2,r_2,...s1,a1,r1...结果是按照手写体以如下顺序生成的(初始化所有状态的价值为零):
[0 0 0 0 0 0 0]
[0 0 0 0 0 0 0]
[0 0 0 0 0 0 0]
[1 0 0 0 0 0 0]
最后一次采样得到