首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

深度强化学习入坑笔记一

总的来说,强化学习属于机器学习的一种,我们都知道机器学习分为有监督与学习和无监督学习,有监督学习通过大量有标记的数据来训练,所以有监督训练是黑白分明的,啥意思呢?一个训练数据你给了他什么标签,它就属于哪一种,无监督学习就是通过一大批未知数据来进行训练得到一个盒子,然后你属于一个未知数据进去预测,看看会输出结果,它属于一种对先验样本的复现过程,而强化学习呢,没有一个明确的规定说你这个行动是绝对的对或者错,只有好与不好之分,好的话给你奖励(Reward),越好的话奖励越高,坏的话给你惩罚(-Reward),越坏的话惩罚越痛,它不是那么的黑白分明,是有灰度的存在。所以我更认同强化学习与监督式学习以及非监督式学习一起组成了机器学习的观点(如图),

03

《机器学习》笔记-概率图模型(14)

如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一试。对于自己,经历了一段时间的系统学习(参考《机器学习/深度学习入门资料汇总》),现在计划重新阅读《机器学习》[周志华]和《深度学习》[Goodfellow et al]这两本书,并在阅读的过程中进行记录和总结。这两本是机器学习和深度学习的入门经典。笔记中除了会对书中核心及重点内容进行记录,同时,也会增加自己的理解,包括过程中的疑问,并尽量的和实际的工程应用和现实场景进行结合,使得知识不只是停留在理论层面,而是能够更好的指导实践。记录笔记,一方面,是对自己先前学习过程的总结和补充。 另一方面,相信这个系列学习过程的记录,也能为像我一样入门机器学习和深度学习同学作为学习参考。 章节目录

03

使用 Langevin 扩散对流形进行采样和估计

Error bounds are derived for sampling and estimation using a discretization of an intrinsically defined Langevin diffusion with invariant measure dμϕ∝e−ϕdvolg on a compact Riemannian manifold. Two estimators of linear functionals of μϕ based on the discretized Markov process are considered: a time-averaging estimator based on a single trajectory and an ensemble-averaging estimator based on multiple independent trajectories. Imposing no restrictions beyond a nominal level of smoothness on ϕ, first-order error bounds, in discretization step size, on the bias and variances of both estimators are derived. The order of error matches the optimal rate in Euclidean and flat spaces, and leads to a first-order bound on distance between the invariant measure μϕ and a stationary measure of the discretized Markov process. Generality of the proof techniques, which exploit links between two partial differential equations and the semigroup of operators corresponding to the Langevin diffusion, renders them amenable for the study of a more general class of sampling algorithms related to the Langevin diffusion. Conditions for extending analysis to the case of non-compact manifolds are discussed. Numerical illustrations with distributions, log-concave and otherwise, on the manifolds of positive and negative curvature elucidate on the derived bounds and demonstrate practical utility of the sampling algorithm.

01
领券