前一讲讲解了智能体如何在不基于模型的情况下如何进行预测,也就是求解在给定策略下的状态价值或行为价值函数.本章则主要讲解在不基于模型的条件下如何通过个体的学习优化价值函数,同时改善自身行为的策略以最大化获得累积奖励的过程...,这一过程也被称为不基于模型的控制....(off-policy learning)
行为价值函数的重要性
在不基于模型的控制时,我们将无法通过分析,比较基于状态的价值来改善贪婪策略,这是因为基于状态价值的贪婪策略改善需要知晓状态间的转移概率(...,那么自然就比较容易从中选出一个最优价值对应的行为了.实践证明,在不基于模型的强化学习问题中,确定状态行为对的价值要容易得多.简化过程如下图所示:
?...为了使用计算机程序解决这个问题,我们首先将这个问题用强化学习的语言再描述一遍.这是一个不基于模型的控制问题,也就是要在不掌握马尔科夫决策过程的情况下寻找最优策略.环境世界中每一个格子可以用水平和垂直坐标来描述