除了试图直接去建立一个可以模拟成人大脑的程序之外,为什么不试图建立一个可以模拟小孩大脑的程序呢?如果它接受适当的教育,就会获得成人的大脑 。——阿兰·图灵
机器学习中,我们比较熟知的是监督式学习和非监督学习,但是还有一大分支,并不为很多人了解,它就是强化学习。
与监督式学习和非监督学习根本不同,强化学习一般包含四个元素:agent(智体),环境状态,行动,奖励。其目标是获得最多的累计奖励。
1
强化学习和监督式学习的区别:
监督式学习好比在学习的时候,有一个导师在旁边指点,他知道怎么是对的怎么是错的。但在很多实际问题中,例如围棋,这种有成千上万种组合方式的情况,不可能有一个导师知道所有可能的结果。
而这时,强化学习会在没有任何标签的情况下,通过尝试做出一些行为得到一个结果,通过这个结果是对还是错的反馈,调整之前的行为。通过不断调整,算法能学习到在什么样的情况下选择什么样的行为可以得到最好的结果。
强化学习和非监督式学习的区别:
领取专属 10元无门槛券
私享最新 技术干货