本章分为三个部分,将分别从理论上阐述基于完整采样的蒙特卡洛强化学习,基于不完整采样的时序差分强化学习以及介于两者之间的
时序差分强化学习.本章将会结合一些实例来加深读者的理解....,TD学习):指从采样得到的不完整的状态序列学习,该方法通过引导(bootstrapping),先估计某状态在该状态序列完整后可能获得的收获,并在此基础上利用前文所属的累进更新平均值的方法得到该状态的价值...TD算法在计算状态价值时利用了状态序列中前后状态之间的关系,由于已知信息仅有8个完整序列,而且状态A的后续状态100%是状态B,而状态B始终作为终止状态,有1/4获得奖励0,3/4获得奖励1.符合这样的状态转移概率的...n步时序差分学习
第二节介绍的TD算法实际上都是TD(0)算法,括号内的数字0表示的是在当前状态下往前多看1步,要是往前多看2步更新状态价值会怎么样?...其中2-10的数字牌点数就是牌面的数字,J,Q,K三类牌均记为10 点,A既可以记为1也可以记为11,由游戏者根据目标自己决定。牌的花色对于计算点数没有影响。