创始人&运营

深度强化学习实验室

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

有监督学习：这如同旅行者拿着一本旅行指南书，其中明确标注了各个景点、餐厅和交通方式。在这里，数据来源就好比这本书，提供了清晰的问题和答案对。

大规模语言模型与强化学习：从理论到实践

强化学习和决策多学科的前提是随着时间的推移，多个学科对目标导向的决策有着共同的兴趣。本文的想法是通过提出一种关于决策者的观点来强化和深化这一前提，这种观点在心理学、人工智能、经济学、控制理论和神经科学中具有实质性和广泛的意义，我称之为智能体的通用模型。通用模型不包括任何特定于任何生物体、世界或应用领域的任何内容。通用模型确实包括决策者与世界互动的各个方面（必须有输入和输出，以及目标）和决策者的内部组成部分（用于感知、决策、内部评估和世界模型）。我确定了这些方面和组成部分，注意到它们在不同的学科中被赋予不同的名称，但基本上指的是相同的想法，并讨论了设计一个可以跨学科使用的中性术语的挑战和好处。现在是时候认识到并建立在多个不同学科在智能主体的实质性通用模型上的融合之上了。

Richard Sutton ||智能决策器通用模型的探索

DeepMind提出了一个框架，用于对通用人工智能（AGI）模型及其前身的能力和行为进行分类。该框架引入了 AGI 性能、通用性和自治性的级别。框架能够以类似于自动驾驶水平的方式发挥作用，提供一种通用语言来比较模型、评估风险和衡量通用人工智能道路上的进展。同时分析了 AGI 的现有定义，并提炼出有用的 AGI 本体应满足的六个原则。这些原则包括关注能力而非机制；分别评估通用性和性能；定义通向 AGI 的道路上的阶段，而不是关注终点。考虑到这些原则，DeepMind根据能力的深度（性能）和广度（通用性）提出“AGI 级别”，并反思当前系统如何适应这一本体。讨论了未来基准的挑战性要求，这些基准根据这些级别量化 AGI 模型的行为和功能。最后，我们讨论这些级别的 AGI 如何与自主性和风险等部署考虑因素相互作用，并强调仔细选择人机交互范例以负责任和安全地部署高性能人工智能系统的重要性。

【重磅最新】DeepMind发布"AGI 的六个层次及原则：实现 AGI 道路上的最近进展"！

来自人类反馈的强化学习（RLHF）已成为一种重要的技术，使机器学习模型适应难以指定的目标。特别是，RLHF 是训练最先进的大型语言模型（LLM）的关键组成部分，例如 OpenAI 的 GPT-4、Anthropic 的 Claude 、Google 的 Bard，以及 Meta 的 Llama 2-Chat。RLHF 和类似的方法使法学硕士不仅可以对其训练数据的分布进行建模，还可以调整文本的分布，以便人类评估者对模型输出给予更高的评价。我们使用 RLHF 来指代结合了三个相互关联的过程的方法：反馈收集、奖励建模和策略优化。图 1（上）说明了此设置。反馈过程引起人类对模型输出的评估。奖励建模过程使用监督学习来训练模仿这些评估的奖励模型。策略优化过程优化人工智能系统，以产生从奖励模型中获得有利评估的输出。当效果良好时，与演示、手动设计的奖励函数或其他指定或学习奖励的方法相比，RLHF 可以相对轻松地识别“良好”行为。RLHF 的根源在于经济学的显示偏好理论。显示偏好理论形式化了这样一种想法，即人们可以从演员的行为中了解他们的目标。它很早就被机器学习领域采用，用于人机交互和强化学习的应用。今天使用的 RLHF 标准方法由 Christiano 等人于 2017 年推广。[2017]，它在引导深度强化学习社区对基于反馈的方法的关注方面发挥了关键作用。RLHF 已成为部署前微调 LLM 的主要策略，目标是生成符合人类目标的安全模型。尽管如此，使用 RLHF 进行微调的部署模型还是暴露了敏感的私人信息，幻觉的不真实内容 。传播有利于特定政治意识形态的偏见，表现出阿谀奉承的反应，并表达了不良偏好（例如，不想成为 关闭）。RLHF 也没有使模型能够抵御越狱（即颠覆系统通常运行的约束）或即时注入/提取的对抗性攻击。研究和产品团队都知道其中许多缺点，但很少有公共工作将 RLHF 的问题正式系统化。在本文中，我们调查了 RLHF 面临的挑战，以促进行业从业者的常识并确定进一步研究的开放问题。我们主要关注法学硕士的申请。我们做出三项贡献：

【前沿速递】17所高校32位作者联合综述最新技术：RLHF 的开放问题和技术限制(34页)

以往多智能体多任务强化学习方法通常依赖多任务同时采样学习或迁移学习方法实现多智能体强化学习策略的多任务泛化能力，但该过程导致了大量的样本开销，且无法应对多智能体系统中随智能体数目和目标变化所导致的海量任务泛化问题。

南栖提出高效多智能体离线强化学习方法，揭示多任务学习对多智能体离线强化学习的促进作用

今天要介绍的是，Google DeepMind 推出了 AlphaDev，一种利用强化学习来发现改进的计算机科学算法的人工智能系统，其自主构建的算法，超越了科学家和工程师几十年来打磨出来的算法，将一种每天在世界各地使用数万亿次的 C++ 算法的运行速度提高了70%。

【重磅Nature+代码开源】DeepMind提出AlphaDev, 用强化学习将排序算法提升70%

成果发表在国际会议AAAI2023上，论文地址：https://doi.org/10.48550/arXiv.2304.00755

【AAAI2023论文解读】结构信息原理指导的基于角色发现的高效稳定多智能体协作

Supported by: Nanjing University and Polixir

【最全总结】离线强化学习(Offline RL)数据集、Benchmarks、经典算法、软件、竞赛、落地应用、核心算法解读汇总

声明：本文整理自顶会ICLR-2023官方，强化学习相关文章大约共计376篇(376/4753), 占比8%，整理难免有不足之处，还望交流指正。

【重磅最新】ICLR2023顶会376篇深度强化学习论文得分出炉(376/4753,占比8%)

https://www.deepmind.com/publications/active-offline-policy-selection

【前沿最新】主动离线策略选择算法(Active offline policy selection)(附开源代码)

强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题，能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理，因为过多的数学可能会让不少读者望而生畏。

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法

我们介绍了 DeepNash，一种能够从零开始学习玩不完美信息游戏 Stratego1 的自主智能体，直至达到人类专家的水平。Stratego 是人工智能 (AI) 尚未掌握的少数标志性棋盘游戏之一。这个流行的游戏有一个巨大的游戏树，大约有 10535 个节点，比围棋大 10175 倍。它具有额外的复杂性，需要在不完全信息下进行决策，类似于德州扑克，它的游戏树要小得多（大约 10164 个节点）。Stratego 中的决策是根据大量离散的行动做出的，行动和结果之间没有明显的联系。情节很长，在玩家获胜之前通常需要数百步棋，并且 Stratego 中的情况不能像扑克中那样轻易地分解为可管理大小的子问题。由于这些原因，Stratego 几十年来一直是 AI 领域的一项重大挑战，现有的 AI 方法几乎无法达到业余水平。DeepNash 使用博弈论、无模型的深度强化学习方法，无需搜索，通过自我对弈来学习掌握 Stratego。正则化纳什动力学 (R-NaD) 算法是 DeepNash 的关键组成部分，通过直接修改底层多智能体学习动力学，收敛到近似纳什均衡，而不是围绕它“循环”。DeepNash 在 Stratego 中击败了现有最先进的 AI 方法，并在 Gravon 游戏平台上获得了年度（2022 年）和历史前三名，与人类专家玩家竞争。

【DeepNash智能体】DeepMind-34位作者联名发表“无模型多智能体强化学习战略游戏”新基准

强化学习发展的特别早，但一直不温不火，其中Sutton老爷子早在1998年就写了强化学习领域的圣经书籍：An Introduction : Reinforcement Learning ，但也并未开启强化学习发展的新局面。直到2012年，深度学习广泛兴起，大规模的神经网络被成功用于解决自然语言处理，计算机视觉等领域，人工智能的各个方向才开始快速发展，强化学习领域最典型的就是2013年DeepMind公司的Volodymyr Mnih发表Playing Atari with Deep Reinforcement Learning（DQN技术），可以说开启了深度强化学习技术发展的新高潮，2015年该论文的加强版Human-level control through deep reinforcement learning 登上Nature, 以及2016年Nature上的AlphaGo: Mastering the game of Go with deep neural networks and tree search 充分证明了深度强化学习技术的发展潜力。

【万字专栏总结】离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

来源：知乎(https://zhuanlan.zhihu.com/p/482656367)

【经验】深度强化学习训练与调参技巧

Ziniu Li, Yingru Li, Yushun Zhang, Tong Zhang, and Zhi-Quan Luo. HyperDQN: A Randomized Exploration Method for Deep Reinforcement Learning. In Proceedings of 10th International Conference on Learning Representations, 2022.

【论文分享】ICLR2022   HyperDQN: A Randomized Exploration for Deep RL

从 70 年的 AI 研究中可以读出的最大教训是，利用计算的一般方法最终是最有效的，而且幅度很大。造成这种情况的最终原因是摩尔定律，或者更确切地说是它对每单位计算成本持续呈指数下降的概括。大多数 AI 研究已经进行，就好像智能体可用的计算是恒定的（在这种情况下，利用人类知识将是提高性能的唯一方法之一），但是，在比典型研究项目稍长的时间里，大量的计算量不可避免地变得可用。为了寻求在短期内产生影响的改进，研究人员试图利用他们对该领域的人类知识，但从长远来看，唯一重要的是利用计算。这两者不需要相互对立，但在实践中它们往往会发生冲突。花在一个上的时间是没有花在另一个上的时间。对一种方法或另一种方法的投资存在心理承诺。人类知识方法往往会使方法复杂化，使其不太适合利用利用计算的一般方法。有很多人工智能研究人员迟来的惨痛教训的例子，回顾一些最突出的例子是有启发性的。

【Richard S. Sutton】谈 The Bitter Lesson(AI 研究中痛苦的教训)

强化学习 (RL) 与深度学习的结合带来了一系列令人印象深刻的壮举，许多人认为（深度）强化学习提供了通向通用智能体的途径。然而，RL 智能体的成功通常对训练过程中的设计选择高度敏感，这可能需要繁琐且容易出错的手动调整。这使得将 RL 用于新问题变得具有挑战性，同时也限制了它的全部潜力。在机器学习的许多其他领域，AutoML 已经表明可以自动化此类设计选择，并且在应用于 RL 时也产生了有希望的初步结果。然而，自动强化学习 (AutoRL) 不仅涉及 AutoML 的标准应用，还包括 RL 独有的额外挑战，这些挑战自然会产生一组不同的方法。因此，AutoRL 已成为 RL 研究的一个重要领域，为从 RNA 设计到围棋等游戏的各种应用提供了希望。鉴于 RL 中考虑的方法和环境的多样性，许多研究都是在不同的子领域进行的，从元学习到进化。在本次调查中，我们寻求统一 AutoRL 领域，提供通用分类法，详细讨论每个领域并提出未来研究人员感兴趣的开放问题

【47页综述】牛津大学联合7家单位发布AutoRL综述，还在手动调参吗？你已经落后了

OpenAI Gym是一款用于研发和比较强化学习算法的环境工具包，它支持训练智能体（agent）做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。 它与其他的数值计算库兼容，如pytorch、tensorflow 或者theano 库等。现在主要支持的是python 语言

【重磅】Gym发布 8 年后，迎来第一个完整环境文档，强化学习入门更加简单化！

http://deeprl.neurondance.com/d/465-pettingzoogymagent

重磅推荐【Pettingzoo】类似gym的多Agent强化学习的环境（61类环境），史上最全！

很多论文的工作都专注于减少policy gradient的方差，以得到更加优质且稳定的policy。其中一项最经典的工作就是对policy gradient的累积奖励减去一个baseline，但为什么减去一个baseline就可以达到减小方差，同时又不引入偏差的效果呢？

【总结】为什么对累积奖励减去baseline项能起到减小方差的作用？

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了深度强化学习实验室专栏，为你提供了深度强化学习实验室的相关文章，致力于帮助开发者快速成长与发展。

深度强化学习实验室

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐