深度强化学习的研究现状
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。
★深度强化学习 ★
1
深度强化学习的研究现状
以人工智能为代表的第四次科技革命取得了众多成果,众多行业正进行着智能化的转变。机器学习领域的深度学习(Deep Learning,DL),已经能实现图像识别、音频识别、自然语言处理等功能,出色体现深度学习在信息感知方面的能力 。强化学习(Reinforcement Learning,RL)是人工智能的另一发展成果,含义是让智能体在训练中根据得到的奖励和惩罚不断学习,最终根据学习经验做出高水平决策。目前在机器控制、机器人等领域应用广泛。人工智能的发展目标是实现具有观察环境信息、独立思考决策的智能体(Agent),智能体不仅需要智能提取信息,还需要做出智能决策,并且可以积累经验,保持学习的能力。深度强化学习(Deep Reinforcement Learning,DRL)是实现这一目标的理论基础,DRL作为人工智能的最新成果之一,功能强大且发展迅速。人工智能的众多工作领域,如无人驾驶和智能流程控制,要实现智能体独立完成观察到动作的完整工作流程,单一的 DL 或者 RL 都对此无能为力,两者结合才能完成任务。
DRL的控制水平在很多领域的表现不输人类甚至超越人类。阿尔法狗(AlphaGo)战胜职业棋手李世石,显示了智能体强大的学习能力。DRL可以无监督的情况下独立学习,可以学习人类专家的经验,最终达到专家水平,甚至在某些方面超越人类。与人脑相比,计算机在连续控制中稳定性更高。以无人驾驶为例,智能体可以杜绝人类驾驶员的主观错误,如疲劳、酒驾、分神等潜在事故因素。成熟的无人驾驶技术可降低事故率、保障交通安全,对于维护人民生命财产安全具有重要意义。除了控制水平,在经验迁移方面,智能体也更有优势。智能体能通过直接的复制模型、数据分享等,完成批量的经验传递。对于不同的设备和控制流程,只要有一定的相似性,都可以进行经验迁移。迁移学习为这种经验复制提供了理论支撑,并产生了新的研究方向。
除了无人驾驶方面的应用,DRL在计算机博弈、人机交互、机器人控制、文本生成等领域,都表现出较强的学习能力。
智能制造是由智能机器和人类专家组成的人机集成智能系统,它可以在制造过程中进行分析、推理、判断、概念和决策等智能活动。在智能制造中,DRL可用于建立自学习、自适应、高效的智能机器。随着 DRL算法的发展和应用,越来越多的生产过程通过智能机器实现,真正实现无人化和规模化生产。深度强化学习的算法研究和在智能制造中应用研究,对人类跨入智能制造时代具有重要意义。
2
深度强化学习存在的问题和未来发展方向
深度强化学习(DRL)是比较新的技术,功能强大,但也存在必须解决的问题,并可能催生新的发展方向。
(1)DRL是机器模仿人类的方法,由于对人脑的了解还不够,还缺乏与之对应的人脑机理知识。比如深度学习(DL)的机器视觉对应人脑神经元的视觉机理,但强化学习(RL)的策略目前与人脑生物学知识的对应不足,限制了强化学习新的发展突破。未来需要对人脑有进一步的研究,并与深度强化学习理论对应,从而突破人造智能体的技术障碍。
(2)计算能力的提升是将深度强化学习应用在实际中的必备条件。目前主流改进方案是算法的提升和硬件设施的进步。随着云计算技术等网络大输出处理技术的进步,通过这些技术结合 DRL,将 DRL的计算任务在线分配处理,批次处理某一区域或者任务的计算,可以带来DRL计算速度的大提升。
(3)基于模型强化学习虽然目前应用受限,但未来发展潜力巨大。随着 DRL 学习能力的提高,智能体能够学习复杂环境的模型,并且可通过模型预测未来。对于一些复杂但封闭性较强的制造环境,基于模型的强化学习有较大的研究价值。
(4)DRL训练的支撑是反馈奖励,应用在工业过程控制中,如何充分利用专家数据提高学习能力,节省学习成本,是很有价值的研究方向。对于稀疏奖励任务,可以根据与专家做法的重合程度,设置短期奖励,提高学习效率。
(5)DRL 是将 DL 和 RL 结合的技术,但 DRL 的控制,如机器人、无人车等,严重依赖 DL 的视觉输入,但DL目前只能发挥感知作用,无法取代力学分析等深层知识,造成 DRL 的一些仿真研究与现实应用有较大差距。未来将 DL和 RL分开研究,获得更高的稳定性,然后再拼装,也是很有价值的研究方向。
(6)DRL算法可以解决智能控制的程序问题,但与之匹配的工业硬件设施还没有相关标准,例如能处理海量工业数据的计算机、能够测量数据传输且接收指令的智能阀门等,都是与理论算法相匹配的研究重点。
文字 | 排版: 王博士
强化学习杂谈
微信号|About-RL
据说牛逼的人都关注了哦!
领取专属 10元无门槛券
私享最新 技术干货