关注AI君,领略人工智能之美
强化学习
Reinforcement Learning
前言
各位读者,新年好!
欢迎阅读《AI技术词条》系列文章,这一系列文章主要针对人工智能领域的专业词汇和算法,AI君力求用最通俗易懂的话语解释清楚相关概念,不废话不凑字,直达最核心的内容。
概述
在之前的《AI技术词条》中,AI君分别讲了监督式和非监督式学习算法,这篇文章里,AI君就来讲讲机器学习的第三类算法,大名鼎鼎的“强化学习”,强化学习算法介于监督式学习和非监督式学习之间,有着独特的学习系统。强化学习英文全称Reinforcement Learning,简称RL。
强化学习的思想来自于条件反射理论和动物学习理论。它是受到动物学习过程启发而得到的一种仿生算法。打败人类世界冠军的阿尔法围棋(AlphaGo)的技术原理就是强化学习。
原理
强化学习系统的基本结构如上图所示。机器人(agent)选择一个行动(action)作用于环境,环境接收该动作后状态(state)发生变化,同时产生一个奖励信号(reward)给机器人,机器人再根据反馈的奖励信号(r)和环境的当前状态(s)选择下一个行动。
利用不断地试错(trial-and-error),根据反馈的变化逐步改进采取的行动(action),使得到的累积奖励(reward)最大,从而获得最佳行动策略(policy),达到学习的目的。
在强化学习的过程中,所有机器人(agent)和环境的交互都被认为是马可夫决策过程(markov decision process, MDP),即当前的状态只取决于上一时刻的状态和动作。这大大简化了决策过程的复杂性,接下来对马可夫决策过程(MDP)作简要介绍。
马可夫决策过程
马可夫决策过程的模型可以用一个四元组(S, A, T, R),S表示可能的状态集合,A为可能的动作集合,T:S×AT是状态转移函数(state transition function),R:S×AR是奖励函数(reward function)。
在每一个时间步(time step)中,环境处于状态集合中的某一状态s,机器人选择动作集合中的一个动作a,收到奖赏(reward),并转移至下一状态。状态转移函数表示在当前状态执行动作转移到下一特定状态的概率,状态转移函数和奖赏函数都是随机的。
状态转移函数的结构T:S×AT表明了机器人(agent)的下一状态只取决于上一状态和动作,和更早之前的历史状态和动作无关。
以上就是马可夫决策过程的基本结构,强化学习就是建立在马可夫决策过程这一基石之上。
总结
我们对强化学习技术的基本原理进行了解释,实际应用中,使用动态规划和各种搜索算法会产生各种令人惊喜的结果。
阿尔法围棋(AlphaGo)就是应用了蒙特卡洛树搜索算法(Monte Carlo Tree Search)。其他常见的较有影响的强化学习算法有TD算法,Q学习算法,Sarsa算法,Dyan算法,R学习算法,H学习等等。
强化学习已被广泛应用于人工智能、机器人控制和工业控制等系统,具有广阔的应用前景。
后话
强化学习本身是一系列算法的集合,所以读者在上面看到不明白的算法也不必费心了解,所以对于本篇提到的每一个强化学习算法在未来都会有单独的《AI技术词条》文章予以解释。
请在文章末尾留言写出你的想法,告诉AI君你最想了解的人工智能算法,我就会优先写出你想看的文章哦。
最后,AI君请大家帮忙多多转发《AI技术词条》系列文章,感激不尽!
祝好!
AI君
2018年1月2日 于欧洲
前文阅读
AI技术词条 机器学习
AI技术词条 线性判别分析
AI技术词条 受限玻尔兹曼机
THE END
图片来源
Ma L., Zhang W., & Dai C. (2014). A Review of Developments inReinforcement Learning for Multi-robot Systems. Journal of Southwest Jiaotong University, 49(6), 1032-1044. Fig.1
参考文献
Singh S. (1997). Agents and reinforcement learning [M]. San Matco, CA, USA: Miller freeman publish Inc.
Sutton S, Barto G. (2006) Reinforcement Learning: An Introduction [M]. Cambridge, MA, USA: MIT Press.
Huang B., Cao G., & Wang Z. (2006). Reinforcement Learning Theory, Algorithms and Application. Journal of Hebei University of Technology, 35(6), 34-38.
关注AI君,领略人工智能之美
领取专属 10元无门槛券
私享最新 技术干货