强化学习(二)重要概念
个体和环境 Agent & Environment 个体指的是强化学习里的智能体Agent,也就是算法里对应的游戏玩家、环境个体,个体实时对环境有一个观测评估,个体可以根据算法策略输出一个对环境的动作行为Action,并从环境得到一个反馈的奖励信号。 环境指的是强化学习里的外部环境Environment,可以接收个体的动作Action并更新环境信息,针对个体的动作给予个体一个奖励信号Reward ,使得个体可以得到下一个对于环境的观测状态Observation 。 个体和环境通过不断循环交互,最终可以得到一个最优的策略,使得个体对于不同的环境观测执行不同的动作行为可以得到尽可能多的累积奖励。
模型Model 模型是强化学习中个体Agent对环境Environment的建模,来模拟环境运行机制和环境与个体的交互机制,由于个体和环境每次交互之后都会产生奖励并进入下一个状态,因此模型主要包含两个问题: 状态转移概率:就是预测下一个状态可能发生的概率:
奖励:就是预测该行为与环境交互后获得的即时奖励:
策略Policy 策略是强化学习中个体对于不同的环境状态执行不同的动作行为的机制,它是一个从环境状态到动作行为的映射,可以是确定性的某个动作行为,也可以是带有不同概率的多种动作行为。 价值函数Value Function 价值函数是强化学习中针对个体和环境交互产生的未来奖励的预测,当个体面对环境的不同状态时,可以根据价值函数来评估选择不同状态以后可能获得的未来累积奖励区别,进而指导制定不同的策略,价值函数用下面的式子表示:
马尔可夫属性 Markov Propert 强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略,策略就是状态到动作的映射,使得最终的累计回报最大。 马尔可夫决策过程(Markov Decision Process,MDP)是指个体进行动作行为和环境交互获得奖励,并不断交互这样的循环过程。MDP要求当前状态满足马尔可夫性,简单表示为:
如果一个状态是马尔可夫的,则要求
马尔可夫性就是后无效性,即下一个状态只与当前状态有关,而与之前的状态无关。
本文分享自 Python编程和深度学习 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!