Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >资源 | UC Berkeley CS 294深度强化学习课程(附视频、学习资料)

资源 | UC Berkeley CS 294深度强化学习课程(附视频、学习资料)

作者头像
数据派THU
发布于 2018-06-13 03:54:27
发布于 2018-06-13 03:54:27
1K0
举报
文章被收录于专栏:数据派THU数据派THU

来源:机器之心

本文共4000字,建议阅读10分钟。

本文主要介绍了课程中的强化学习主题,涉及深度强化学习的基本理论与前沿挑战。

CS294 深度强化学习 2017 年秋季课程的所有资源已经放出。该课程为各位读者提供了强化学习的进阶资源,且广泛涉及深度强化学习的基本理论与前沿挑战。本文介绍了该课程主要讨论的强化学习主题,读者可根据兴趣爱好与背景知识选择不同部分的课程。请注意,UC Berkeley 的 CS 294 并未被归类为在线开放课程,所有视频的使用权仅限个人学习。

课程主页:http://rll.berkeley.edu/deeprlcourse/ 所有视频的链接:https://www.youtube.com/ playlist?list=PLkFD6_40KJIznC9CDbVTjAF2oyt8_VAe3

知识背景

本课程要求具有 CS 189 或同等学力。本课程将假定你已了解强化学习、数值优化和机器学习的相关背景知识。本课程所需的背景资料已在下表列出。在课程中,授课人会回顾这些资料的内容,但会非常简略。

  • 强化学习和 MDP
    • MDP 的定义
    • 精确算法:策略与价值迭代
    • 搜索算法
  • 数值优化
    • 梯度下降、随机梯度下降
    • 反向传播算法
  • 机器学习
    • 分类和回归问题:使用哪些损失函数,如何拟合线性和非线性模型
    • 训练/测试错误、过拟合

有关强化学习与 MDP 的介绍资料:

  • CS188 EdX 课程,从马尔可夫决策过程 I 开始:http://ai.berkeley.edu/home.html
  • Richard S. Sutton 与 Andrew G. Barto 的《强化学习导论》,第三章和第四章:http://incompleteideas.net/book/the-book-2nd.html
  • 有关 MDP 的介绍,请参阅吴恩达的论文《Shaping and policy search in Reinforcement learning》:http://rll.berkeley.edu/deeprlcourse/docs/ng-thesis.pdf
  • David Silver 的课程:http://rll.berkeley.edu/deeprlcourse/#related-materials

有关机器学习和神经网络的介绍性资料,请参阅:

  • Andrej Karpathy 的课程:http://cs231n.github.io/
  • Geoff Hinton 的 Coursera 课程:https://www.coursera.org/learn/neural-networks
  • 吴恩达的 Coursera 课程:https://www.coursera.org/learn/machine-learning/
  • Yaser Abu-Mostafa 的课程:https://work.caltech.edu/telecourse.html

以下是 CS 294 深度强化学习 2017 年秋季课程的主要内容概要,所有的授课文档与视频都已经发布且展示在课程主页中。

8 月 23 日:课程简介(Levine)

该课程第一节课主要是课程介绍和对强化学习基本概念的介绍。

该课程教学大纲中包含以下内容:

  • 从监督学习到决策
  • 基础强化学习:Q 学习和策略梯度
  • 高级模型学习和预测、distillation、奖励学习
  • 高级深度强化学习:置信域策略梯度、actor-critic 方法、探索
  • 开放性问题、学术讲座、特邀报告

8 月 28 日:监督学习和模仿学习(Levine)

本节课介绍监督学习,主要内容包括:

  • 序列决策问题的定义
  • 模仿学习:使用监督学习进行决策
  • (深度)模仿学习近期研究案例分析
  • 模仿学习的缺点

本节课目标:

  • 理解监督学习定义和符号;
  • 理解基础模仿学习算法;
  • 理解模仿学习算法的优劣势。

模仿学习:

8 月 30日:强化学习简介(Levine)

本节课介绍强化学习,主要内容包括:

  • 马尔可夫决策过程的定义
  • 强化学习问题的定义
  • 强化学习算法解析
  • 简要介绍强化学习算法类型

本节课目标:

  • 理解强化学习定义和符号;
  • 理解强化学习的目标;
  • 尽可能了解所有强化学习算法。

马尔可夫链定义:

马尔可夫决策过程定义:

强化学习算法类型:

9 月 6 日:策略梯度简介(Levine)

本节课介绍了策略梯度,主要内容包括:

  • 策略梯度算法
  • 策略梯度的作用
  • 基础方差缩减:因果性(causality)
  • 基础方差缩减:基线
  • 策略梯度示例

本节课的目标:

  • 理解策略梯度强化学习;
  • 理解使用策略梯度时需要实际考虑的事情。

9 月 8 日:神经网络概述(Achiam)

本节课全面介绍了神经网络,主要内容包括:自动微分、TensorFlow 基础知识、构建高级计算图、log 和 debug,以及计算图库、TensorFlow 的其他 API/封装器。

9 月 11 日:actor-critic 算法简介(Levine)

本节课介绍了 actor-critic 算法,主要内容包括:

  • 改进具备 critic 的策略梯度
  • 策略评估问题
  • 折现因子
  • actor-critic 算法

本节课目标:

  • 理解策略评估与策略梯度如何拟合;
  • 理解 actor-critic 算法的工作原理。

actor-critic 算法:

架构设计:

9 月 13 日:价值函数介绍(Levine)

本节课介绍价值函数的应用,包括从价值函数提取策略,如何用价值函数优化策略,Q-学习算法的介绍、实际应用和扩展等。

其中强调了聚焦于价值函数而不是策略本身的重要性,这有助于简化问题;并介绍了 Q-学习的多种模式,如离线模式、在线模式等。

9 月 18 日:高级 Q-学习算法(Levine)

本节课介绍 Q-学习算法的扩展,包括如何与深度学习结合、广义的 Q-学习算法、Q-学习算法的实际应用以及连续性 Q 学习算法。重点是理解在复杂函数逼近中实现 Q-学习,以及如何将 Q-学习扩展到连续动作。

深度 Q-学习算法的典型定义。

广义的 Q-学习算法:数据收集—目标更新—Q-函数回归。

9 月 20 日:最优控制和规划(Levine)

本节课介绍了无模型和基于模型的强化学习的差别,以及在建模过程中对转换动力学的先验知识的重要性;然后介绍了多种优化方法,包括随机优化(连续型)、蒙特卡洛树搜索(离散型)和轨迹优化。重点是理解如何结合离散或连续空间的已知系统动力学知识来执行规划。

知道强化学习问题的动力学知识会通常来说使问题更加简单,围棋、汽车、机器人、视频游戏等的动力学知识都是比较容易获取的。

9 月 25 日:从数据中学习动力学系统(Levine)

上节课中介绍了当知道系统的动力学知识之后,如何对问题进行建模。

本节课将介绍当系统动力学知识未知时的解决方案,包括拟合全局动力学模型(基于模型的强化学习)以及拟合局域动力学模型。重点是理解基于模型强化学习的术语和形式,可选的模型类型,以及模型学习中的实际考虑。

9 月 27 日:利用模仿优化控制器学习策略(Levine)

上节课中介绍了当系统动力学知识未知时的解决方案,包括全局方法(基于模型的强化学习)以及局域方法(基于模型并添加约束)。但当需要系统生成策略的时候,该怎么办呢?生成策略可以更快地评估智能体的动作,并且泛化潜力更好。

本节课将介绍如何利用反向传播算法来学习策略,它和模仿优化控制的关系,然后介绍了引导策略搜索算法,最后介绍了如何权衡基于模型和无模型强化学习的选择。本节课的重点在于理解用优化控制训练策略的过程,以及多种不同方法的权衡过程。

10 月 2 日:高级强化学习和图像处理应用(客座演讲:Chelsea Finn)

本节课介绍多种高级的模型学习方法,并以图像应用为例分别展示了隐空间学习、图像空间学习、逆模型学习和预测替代数量。

其中强调了学习特征的重要性,以及在利用观测模型时,需要考虑奖励函数和目标函数的设置。

基于模型方法和无模型方法的优缺点对比。

10 月 4 日:推断和控制之间的联系(Levine)

这一课程的主要目的是理解推断和控制之间的关系,以及理解具体的强化学习算法在框架下如何实例化。最优的控制其实可以作为拟合人类行为的模型,但如果数据达不到最优,那有如何拟合人类行为?我们还是可以将强化学习作为图模型中的推断而实现控制,其中价值函数为反向信息,且最大化奖励和信息熵以训练模型。其它方法还有 Soft Q-learning 和基于信息熵正则化的策略梯度等。

如下展示了一种制定决策或控制的概率图模型:

10 月 9 日:逆向强化学习(Levine)

本节课介绍逆向强化学习,主要内容包括:

  • 手动设计奖励函数来定义一个任务
  • 当我们想从观察专家过程中学习奖励函数,然后使用强化学习时会发生什么?
  • 使用上节课的近似最优模型,学习奖励函数。

本节课目标:

  • 理解逆向强化学习的定义;
  • 理解如何使用行为概率模型推导出逆向强化学习算法;
  • 了解我们实践中使用的逆向强化学习算法。

逆向强化学习:

以下是这一章节的总结:

10 月 11 日:高级策略梯度(自然梯度、重要性采样)(Achiam)

本节课介绍高级策略梯度方法,主要内容包括:

理论:

  • 策略梯度方法的问题
  • 策略性能边界
  • 单调改进理论(Monotonic Improvement Theory)

算法:

  • 自然策略梯度
  • 置信域策略优化
  • 近端策略优化

自然策略梯度:

置信域策略优化:

10 月 16 日:探索(Levine)

这一章节主要介绍了什么是探索(exploration),以及为什么它在强化学习中非常重要。一般来说探索分为基于乐观探索、基于后验匹配的探索和基于信息理论的探索。探索和利用(exploitation)的均衡在强化学习中非常重要,也是非常难以解决的问题。以下展示了探索与利用之间的基本区别:

随后 Levine 详细展开介绍了为什么探索是非常困难的,包括摇臂赌博机问题等,而后重点介绍了乐观探索(Optimistic exploration)、概率匹配与后验采样,以及信息增益等探索方法。以下展示了一种探索算法。

10 月 18 日:探索(第二部分)和迁移学习(Levine)

这一章节首先复习了上堂课介绍的乐观探索、Thompson 采样风格的算法和信息增益风格的算法,然后介绍了这三类算法的近似论证。最后,讲师 Levine 还给出了一系列的延伸阅读以加强我们对探索的理解。

该课程后一部分介绍了元学习与迁移学习,以下展示了迁移学习中的一种架构: 渐进神经网络。

10 月 23 日:多任务学习与迁移(Levine)

该课程主要介绍了多任务学习与迁移学习。说到如何解决迁移学习的问题,没有一个特定的解决方案,所以此课主要对近期(当时)的各种演讲论文进行了介绍。

1.「前向」迁移:在一个任务上训练,迁移到新任务

  • 只是试试,希望有好结果
  • 架构迁移:渐进网络
  • 在新任务上微调
  • 随机化源任务域

2. 多任务迁移:在多种任务上训练,迁移到一个新任务上

  • 基于模型的强化学习
  • 模型精炼
  • 情境策略
  • 模块化策略网络

3. 多任务元学习:学习从多种任务上学习

  • 基于 RNN 的元学习
  • 基于梯度的元学习

10 月 25 日:元学习和并行化(Levine)

首先元学习是一种学习如何学习的方法,它在实践中与多任务学习非常相近,一般而言元学习可以分为学习一种优化器、学习一个 RNN 以捕捉经验信息和学习一种表征。如果元学习是一种快速的强化学习器,那么我们就能快速学习新任务。

一般而言元学习可以通过监督学习或强化学习构建,它可以返回优秀的表征而加速学习也可以用来构建对经验的记忆等。

该章节的后一部分介绍了强化学习中的并行化,包括强化学习到底哪一部分需要并行,如何并行以及最终怎样实现等。以下展示了我们最终需要并行的部分。

10 月 30 日:进阶模仿学习和开放性问题(Levine)

我们知道模仿学习的目标是通过监督学习在给定观察下求得行动的概率分布,而强化学习是给定环境和状态下求得行动的概率分布。模仿学习要求预先的演示且必须解决分布迁移问题,它的优点在于可以通过简单稳定的监督学习实现。而强化学习需要奖励函数且必须解决模型的探索问题,它虽然可能会无法收敛,但却能够实现任意好的性能。

这一章节介绍了结合模仿学习的监督方式和强化学习的方法:

后一部分介绍了深度强化学习的挑战,包括超参数调整、样本复杂度、泛化性能和 shenwuxu 生物学启示等。

该课程后面还有很多受邀嘉宾与它们所授的课程,包括 OpenAI 的 Igor Mordatch、谷歌的 Mohammad Norouz、伯克利和 OpenAI 的 Pieter Abbeel、伯克利的 Aviv Tamar 和 OpenAI 的 John Schulman。他们并没有提供对应的授课文档,但演讲视频在 YouTube 上都已经放出来了。

相关学习材料

机器学习夏季课程中 John 的视频:

  • 视频 1:https://www.youtube.com/watch?v=aUrX-rP_ss4
  • 视频 2:https://www.youtube.com/watch?v=oPGVsoBonLM
  • 视频 3:https://www.youtube.com/watch?v=rO7Dx8pSJQw
  • 视频 4:https://www.youtube.com/watch?v=gb5Q2XL5c8A

课程:

  • David Silver 的强化学习课程:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
  • Nando de Freita 的机器学习课程:https://www.cs.ox.ac.uk/people/nando.defreitas/machinelearning/
  • Andrej Karpathy 的神经网络课程:http://cs231n.github.io/

相关书籍:

  • 深度学习:http://www.deeplearningbook.org/
  • Sutton 和 Barto 合著的 Reinforcement Learning: An Introduction :http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
  • Szepesvari 的Algorithms for Reinforcement Learning:https://sites.ualberta.ca/~szepesva/RLBook.html
  • Dynamic Programming and Optimal Control:http://www.athenasc.com/dpbook.html
  • Markov Decision Processes: Discrete Stochastic Dynamic Programming:https://www.wiley.com/en-us/Markov+Decision+Processes%3A+Discrete+Stochastic+Dynamic+Programming-p-9780471727828
  • Approximate Dynamic Programming:http://adp.princeton.edu/
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
资源 | 学到了!UC Berkeley CS 294深度强化学习课程(附视频与PPT)
选自UC Berkeley 机器之心整 CS294 深度强化学习 2017 年秋季课程的所有资源已经放出。该课程为各位读者提供了强化学习的进阶资源,且广泛涉及深度强化学习的基本理论与前沿挑战。本文介绍了该课程主要讨论的强化学习主题,读者可根据兴趣爱好与背景知识选择不同部分的课程。请注意,UC Berkeley 的 CS 294 并未被归类为在线开放课程,所有视频的使用权仅限个人学习。 课程主页:http://rll.berkeley.edu/deeprlcourse/ 所有视频的链接:https://ww
朱晓霞
2018/04/18
1.3K0
资源 | 学到了!UC Berkeley  CS 294深度强化学习课程(附视频与PPT)
深度强化学习资料(视频+PPT+PDF下载)
机器之心 整理&出品 课程主页:http://rll.berkeley.edu/deeprlcourse/ 所有视频的链接:https://www.youtube.com/playlist?list=
昱良
2018/06/25
2.8K0
开学三周了快补课:伯克利CS 294深度强化学习课,有视频有课件
8月22日到现在,从行为的监督学习,讲到了策略梯度和演员-评论家,前六节课的视频已经放出来了。
量子位
2018/09/29
8410
开学三周了快补课:伯克利CS 294深度强化学习课,有视频有课件
UC伯克利出品,深度强化学习最新课程已上线
当地时间 10 月 11 日,UC 伯克利电气工程与计算机科学系(EECS)助理教授 Sergey Levine 在推特上宣布,他讲授的 CS285 深度强化学习(RL)课程已经放出了部分视频,并表示之后每周会实时更新后续课程。
机器之心
2020/10/27
4520
UC伯克利出品,深度强化学习最新课程已上线
强化学习常用算法+实际应用 ,必须get这些核心要点!
强化学习是一种机器学习技术,它使代理能够使用自身行为和经验的反馈通过反复试验在交互式环境中学习。
新智元
2020/02/13
8210
论强化学习和概率推断的等价性:一种全新概率模型
选自arXiv 作者:Sergey Levine 机器之心编译 参与:张倩、刘晓坤 虽然强化学习问题的一般形式可以有效地推理不确定性,但强化学习和概率推断的联系并不是很明显。在本文中,UC Berkeley EECS 助理教授 Sergey Levine 提出了一种新的概率模型和理论框架,证明了强化学习的一般形式即最大熵强化学习与概率推断的等价性。在原则上,将问题形式化为概率推断,可以应用多种近似推断工具,将模型以灵活、强大的方式进行扩展。 概率图模型(PGM)为机器学习研究者提供了一种广泛适用的工具(K
机器之心
2018/06/08
7920
DeepMind推出深度学习与强化学习进阶课程(附视频)
机器之心报道 参与:张倩、李泽南 在 OpenAI 推出强化学习课程 Spinning Up 后不久。昨天,DeepMind 与 UCL 合作推出了一门深度学习与强化学习进阶课程,以在线视频形式呈现。
机器之心
2018/12/17
5770
一文了解强化学习
虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应用,当然要了解一下了。 本文结构: 定义 和监督式学习, 非监督式学习的区别 主要算法和类别 应用举例 ---- 1. 定义 强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题,即自动进行决策,并且可以做连续决策。 它主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标
杨熹
2018/04/03
8310
一文了解强化学习
15大顶级深度学习课程,你收集全了吗?
翻译 | AI科技大本营 参与 | 刘畅、Donna 目前,深度学习和深度强化学习已经在实践中得到了广泛的运用。资源型博客sky2learn整理了15个深度学习和深入强化学习相关的在线课程,其中包括它们在自然语言处理(NLP),计算机视觉和控制系统中的应用教程。 这些课程涵盖了神经网络,卷积神经网络,循环网络和其变体,训练深度网络的困难,无监督表示学习,深度信念网络,深玻尔兹曼机器,深度Q学习,价值函数估计和优化以及蒙特卡洛树搜索等多种算法的基础知识。 吴恩达:深度学习专项 这系列课程侧重于讲解深度学习
企鹅号小编
2018/02/05
8650
15大顶级深度学习课程,你收集全了吗?
深度强化学习智能交通 (I) :深度强化学习概述
随着城市化进程的加快和自动技术的最新发展,交通研究逐渐向智能化方向发展,称为智能交通系统(ITS)。人工智能(AI)试图用最少的人工干预来控制系统。智能交通系统与人工智能的结合为21世纪的交通研究提供了有效的解决方案。ITS 的主要目标是为参与者提供安全、有效和可靠的交通系统。为此,优化交通信号控制(TSC)、自动车辆控制、交通流控制等是研究的重点。
数据科学人工智能
2022/03/31
1.8K0
深度强化学习智能交通 (I) :深度强化学习概述
详解经典强化学习算法,搞定“阿尔法狗”下围棋
👆点击“博文视点Broadview”,获取更多书讯 想必你一定听说过“阿尔法狗”下围棋的故事,没错,它用的就是强化学习领域的算法。 强化学习作为人工智能的一个子领域,受到越来越多的关注,其产生的决策智能被视为走向通用人工智能的最可行方法之一。 但纷繁复杂的概念以及层出不穷的算法容易给学习者造成极大的困扰。 本文旨在用简洁的语言梳理强化学习的概念以及算法,为读者呈现强化学习的轮廓和涵盖内容。 下面总结了一些经典的强化学习算法(图1),并从多个角度对强化学习算法进行分类,其中包括: (1)基于模型(Mode
博文视点Broadview
2023/05/06
1.4K0
详解经典强化学习算法,搞定“阿尔法狗”下围棋
DeepMind高赞课程:24小时看完深度强化学习最新进展(视频)
今天,DeepMind 官推贴出一则告示,将 DeepMind 研究人员今年在 UCL 教授的深度强化学习课程“Advanced Deep Learning and Reinforcement Learning” 资源全部公开。
新智元
2018/12/18
4410
DeepMind高赞课程:24小时看完深度强化学习最新进展(视频)
【ICML教程】深度强化学习,决策与控制(117 PPT)
【新智元导读】本文来自 ICML 2017 的 tutorial,主题是深度学习应用中的决策和控制问题,介绍了与强化学习相关的强化和最优控制的基础理论,以及将深度学习扩展到决策和控制中的一些最新成果,包括基于模型的算法,模仿学习和逆向强化学习,探索当前深度强化学习算法的前沿和局限性。 完整PPT下载:https://sites.google.com/view/icml17deeprl 将“神通广大”的神经网络模型与简单可扩展的训练算法结合在一起的深度学习对包括计算机视觉,语音识别和自然语言处理在内的一系列监
新智元
2018/03/22
1.6K0
【ICML教程】深度强化学习,决策与控制(117 PPT)
独家 | 强化学习必知二要素——计算效率和样本效率
有没有因为空调太冷而穿上毛衣?在去睡觉之前忘了关掉另一个房间的灯?虽然在办公室所做的一切都可以通过笔记本电脑在家里完成,但是你每天依然会花费半个多小时的通勤时间去上班,目的只是为了 “填充办公室的空位”?
数据派THU
2020/05/18
9880
DeepMind和剑桥、普朗克研究所共同论文:基于模型加速的连续深度Q-learning方法
摘要 模型无关的强化学习被成功应用于许多难题,最近还被用于处理大型神经网络策略和价值函数。然而,模型无关的算法的样本复杂度往往限制了它们在硬件系统中的应用,尤其是使用高维函数逼近器时。本文中,我们对算法和表示进行了探索,降低对连续控制任务的深度强化学习的样本复杂度。我们还提出了两个补充技术,用于提高这些算法的效率。首先,我们推导出一个连续变量的Q-learning算法,我们称为归一化优势函数 (NAF), 将它作为更常用的策略梯度和评估-决策 (actor-critic) 方法的替代品. NAF表征允许我们
AI科技评论
2018/03/07
1.2K0
DeepMind和剑桥、普朗克研究所共同论文:基于模型加速的连续深度Q-learning方法
IEEE预发:DeepMind主攻的深度强化学习3大核心算法及7大挑战
【新智元导读】深度强化学习将有助于革新AI领域,它是朝向构建对视觉世界拥有更高级理解的自主系统迈出的一步。本文将涵盖深度强化学习的核心算法,包括深度Q网络、置信区域策略优化和异步优势actor-critic算法(A3C)。同时,重点介绍深度强化学习领域的几个研究方向。 本文预计在IEEE信号处理杂志“图像理解深度学习”专刊发表。作者Kai Arulkumaran是伦敦帝国理工大学的博士生,Marc Peter Deisenroth是伦敦帝国理工大学的讲师,Miles Brundage是亚利桑那州立大学博士
新智元
2018/03/22
1.3K0
IEEE预发:DeepMind主攻的深度强化学习3大核心算法及7大挑战
深度强化学习智能交通 (I) :深度强化学习概述
随着城市化进程的加快和自动技术的最新发展,交通研究逐渐向智能化方向发展,称为智能交通系统(ITS)。人工智能(AI)试图用最少的人工干预来控制系统。智能交通系统与人工智能的结合为21世纪的交通研究提供了有效的解决方案。ITS 的主要目标是为参与者提供安全、有效和可靠的交通系统。为此,优化交通信号控制(TSC)、自主车辆控制、交通流控制等是研究的重点。
数据酷客
2020/05/09
1.9K0
深度强化学习智能交通 (I) :深度强化学习概述
【干货】ICML2018:63篇强化学习论文精华解读!
【新智元导读】机器学习顶会ICML 2018从2473份提交论文中接收了621篇,其中有63余篇强化学习相关论文,作者将这些论文分成了多个类别,并对每篇文章的核心贡献做了精炼的总结,这些文章也是追踪强化学习最前沿技术的绝佳材料,精炼的总结也也便于我们快速查找与自己研究相关的文章。
新智元
2018/08/01
1.1K0
【干货】ICML2018:63篇强化学习论文精华解读!
学习强化学习之前要掌握的3种技能
现代强化学习几乎完全集中在深度强化学习上。深度强化学习中的“深”一词意味着在算法的核心方面使用神经网络。神经网络在学习过程中进行一些高维近似。话虽如此,该模型并不需要具有许多层和特征,这是一个普遍的误解,深层暗示了许多层。
磐创AI
2020/07/03
6570
我将开始更新 强化学习
很久没有更新文章,从现在开始我将逐步恢复更新。在接下来的日子,我将系统更新强化学习文章,在期间,也会插播一些读博做科研的一些日常总结。
double
2023/08/08
2230
我将开始更新 强化学习
推荐阅读
相关推荐
资源 | 学到了!UC Berkeley CS 294深度强化学习课程(附视频与PPT)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档