开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用可变动作强化学习

可变动作强化学习是一种强化学习算法，它可以根据不同的环境和状态选择不同的动作来优化目标函数。在可变动作强化学习中，智能体可以根据当前的状态和环境来选择不同的动作，以达到最大化目标函数的目的。

可变动作强化学习的优势在于它可以根据不同的环境和状态来选择最优的动作，从而提高智能体的性能和效率。此外，可变动作强化学习还可以应用于多种领域，如自动驾驶、机器人控制、游戏等。

可变动作强化学习的应用场景包括自动驾驶、机器人控制、游戏等。在自动驾驶领域，可变动作强化学习可以帮助智能体根据不同的路况和交通状况来选择最优的行驶路线和速度，从而提高自动驾驶的安全性和效率。在机器人控制领域，可变动作强化学习可以帮助智能体根据不同的环境和状态来选择最优的动作，从而提高机器人的性能和效率。在游戏领域，可变动作强化学习可以帮助智能体根据不同的游戏场景和状态来选择最优的动作，从而提高游戏的挑战性和趣味性。

推荐的腾讯云相关产品包括腾讯云智能客服、腾讯云智能语音交互、腾讯云智能视觉等。这些产品都可以帮助企业实现智能化的客户服务和视觉识别等功能，从而提高企业的效率和用户体验。

腾讯云智能客服是一种基于人工智能的智能客服解决方案，可以自动识别用户的意图和情感，并提供相应的回复。腾讯云智能语音交互是一种基于语音识别和自然语言处理的智能语音交互解决方案，可以实现语音控制和语音助手等功能。腾讯云智能视觉是一种基于图像识别和计算机视觉的智能视觉解决方案，可以实现人脸识别、图像识别、视频监控等功能。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

南栖提出高效多智能体离线强化学习方法，揭示多任务学习对多智能体离线强化学习的促进作用

以往多智能体多任务强化学习方法通常依赖多任务同时采样学习或迁移学习方法实现多智能体强化学习策略的多任务泛化能力，但该过程导致了大量的样本开销，且无法应对多智能体系统中随智能体数目和目标变化所导致的海量任务泛化问题。

02

谷歌大脑和DeepMind联合发布离线强化学习基准，将各种RL研究从线上转为线下

最近，Google Brain和DeepMind联合提出了一个称为RL Unplugged的基准，以评估和比较离线RL方法。RL Unplugged包含来自多个领域的数据，包括游戏（例如Atari基准测试）和模拟的电机控制等（例如DM Control Suite）。

02

强化学习在量化投资中应用（理论简介）

什么是强化学习？强化学习任务通常用马尔科夫决策过程（MarkovDecision Process,MDP）来描述：机器处于环境E中，状态空间为S，其中每个状态s∈S是机器给你知道的环境的描述；机器能采取的动作构成了动作空间A，若某个动作a∈A作用在当前状态s上，则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态，在转移到另一个状态的同时，环境会根据潜在的“奖赏”（Reward）函数R反馈给机器一个奖赏。综合起来，强化学习任务对应了四元组 E= <S,A,P,R>, 其中P:S×A×S ↦ℝ

08

NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING 论文解读

此论文出自google Brain并发表与ICLR2017，看这篇论文主要是google Brain在cvpr2017上发表了一篇NASnet论文。

02

最新 | JP摩根人工智能、机器学习应用算法交易解析

如果你对机器学习和人工智能（AI）在金融领域的应用感兴趣的话，J.P. Morgan最新发布了一份关于算法交易“应用数据驱动学习”问题的报告。也许对你有帮助。

03

强化学习模拟水下稳定性，潜水体 15 分钟学会规则

强化学习是机器人在与环境交互中解决控制问题的方法。本论文中，我们将要学习基于模型值函数的强化学习方法，这种方法适用于部分机器人和光嵌入式系统。

02

视频 | 强化学习模拟水下稳定性，潜水体15分钟学会规则

这里是雷锋字幕组编译的 ICRA 2018 系列，带你了解机器人与自动化领域的最新研究成果。

04

可变腿长、能下楼、走沙坑，数研院具身四足机器人控制取得突破

机器之心专栏机器之心编辑部近日，上海数字大脑研究院（简称 “数研院”）成功用强化深度学习方法，将 Transformer 大模型应用于四足机器人跨地形、跨具身运动控制，让不同具身的四足机器人成功在多种真实复杂地形上 “化险为夷”，如履平地，为自由、自主的运动控制奠定基础。相关成果以两篇论文的形式发表在国际机器人顶级会议 ICRA 2023 上。（文末附文章链接）四足机器人运动控制的发展现状足式机器人常见的有双足机器人和四足机器人，相比其他类型的机器人（例如轮式，履带式），它们有着更好的灵活性和通过性

02

“弱肉强食，大者为王” | OpenDILab推出多智能体博弈环境Go-Bigger

多智能体对抗作为决策AI中重要的部分，也是强化学习领域的难题之一。为丰富多智能体对抗环境，OpenDILab（开源决策智能平台）开源了一款趣味多智能体对抗竞技游戏环境——Go-Bigger。同时，Go-Bigger还可作为强化学习环境协助多智能体决策AI研究。

02

五分钟教你在Go-Bigger中设计自己的游戏AI智能体

为丰富多智能体对抗环境，OpenDILab（开源决策智能平台）开源了一款趣味多智能体对抗竞技游戏环境——Go-Bigger。同时，Go-Bigger还可作为强化学习环境协助多智能体决策AI研究。

03

《强化学习》可复现性？稳健性？Joelle Pineau无情揭示问题

Joelle Pineau，图源：https://research.fb.com/why-diversity-matters-in-ai-research/

03

可复现性？稳健性？Joelle Pineau无情揭示强化学习的问题

Joelle Pineau，图源：https://research.fb.com/why-diversity-matters-in-ai-research/

02

NIPS 2018 | Spotlight论文：凭借幻想的目标进行视觉强化学习

我们想构建一个能够在复杂的非结构化环境中完成任意目标的智能体，例如可以做家务的机器人。一种有前景的方法是使用深度强化学习，这是一种用于教授智能体最大化奖励函数的强大框架。然而，典型的强化学习范例一般需要手动设计奖励函数来训练智能体解决独立任务。

02

为什么说强化学习是针对优化数据的监督学习？

强化学习（RL）可以从两个不同的视角来看待：优化和动态规划。其中，诸如REINFORCE等通过计算不可微目标期望函数的梯度进行优化的算法被归类为优化视角，而时序差分学习（TD-Learning）或Q-Learning等则是动态规划类算法。

02

ACL2020 | 使用强化学习为机器翻译生成对抗样本

本文介绍的是 ACL 2020 论文《A Reinforced Generation of Adversarial Examples for Neural Machine Translation》，论文作者来自南京大学、腾讯。

02

基于强化学习的自动交易系统研究与发展综述

Moody 等人将循环强化学习算法模型(Recurrent Reinforcement Learning，RRL)应用在单一股票和资产投资组合等领域，测试了日内外汇市场(USD / GBP)、标准普尔500(S&P 500 Index)、美国短期国债等金融资产。以收益率为输入，微分夏普比率为目标函数，在交易成本为5‰的情况下进行实验。RRL 策略获得的回报超过Q 学习（Q-Learning）策略和买入持有策略，并在交易次数上明显小于Q 学习策略。

02

Huskarl 最近进展：已支持与 OpenAI Gym 环境无缝结合！

近日，Github 上开源的一个专注模块化和快速原型设计的深度强化学习框架 Huskarl 有了新的进展。该框架除了轻松地跨多个 CPU 内核并行计算环境动态外，还已经成功实现与 OpenAI Gym 环境的无缝结合。TensorFlow 发布了相应的文章来报道此研究成果。

02

【论文阅读】DeepJS: Job Scheduling Based on DRL in Cloud Data Center

作者提出一种在矢量装箱问题下的，基于深度强化学习的，资源调度算法（原文称作业调度），该算法可自动获得合适的计算方法，该方法将最小化完成时间（最大化吞吐量），本文从trace-driven的仿真演示了DeepJS的收敛和泛化性以及DeepJS学习的本质，同时实验表明DeepJS优于启发式的调度算法

03

华人学者再创佳绩！包揽CoRL2021最佳论文奖项

备受关注的论文大奖全部被华人学者包揽。来自麻省理工大学的Tao Chen, Jie Xu, Pulkit Agrawal(导师)拿下最佳论文奖；来自哥伦比亚大学的Huy Ha, 宋舒然(导师)拿下最佳系统论文奖。

03

开发 | 强化学习怎样在探索和利用之间找到平衡？OpenAI 推出了大型多智能体游戏环境 Neural MMO

AI 科技评论按：OpenAI 于今日发布了 Neural MMO，它是一个为强化学习智能体创建的大型多智能体游戏环境。该平台支持在一个持久、开放的任务中使用大规模且数量可变的智能体。将更多的智能体和物种囊括到环境中可以更好地执行探索任务，促进多种生态位的形成，从而增强系统整体的能力。

02

深度学习的发展方向：深度强化学习！

深度学习不够智能，强化学习又太抽象。深度强化学习是两套理论体系乘风破浪以后的成团产物，其骨架来自强化学习，而灵魂由深度学习赋予。深度强化学习是一个值得持续研究和关注的新方向。

05

Huskarl 最近进展：已支持与 OpenAI Gym 环境无缝结合！

近日，Github 上开源的一个专注模块化和快速原型设计的深度强化学习框架 Huskarl 有了新的进展。该框架除了轻松地跨多个 CPU 内核并行计算环境动态外，还已经成功实现与 OpenAI Gym 环境的无缝结合。TensorFlow 发布了相应的文章来报道此研究成果。

02

强化学习系列案例 | 强化学习实验环境Gym和TensorFlow

强化学习算法的实现需要合适的平台和工具。本案例将首先介绍目前常用的强化学习实现平台Gym的基本使用方法，再介绍实验工具TensorFlow的基本操作方法，为之后构建和评估强大的强化学习算法打下坚实基础。

03

【一】最新多智能体强化学习方法【总结】

【三】多智能体强化学习（MARL）近年研究概览｛Analysis of emergent behaviors（行为分析)_、Learning communication（通信学习）｝

03

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器学习技术在许多领域取得了重大成功，但是，许多机器学习方法只有在训练数据和测试数据在相同的特征空间中或具有相同分布的假设下才能很好地发挥作用。当分布发生变化时，大多数统计模型需要使用新收集的训练数据重建模型。在许多实际应用中，重新收集所需的训练数据并重建模型的代价是非常昂贵的，在这种情况下，我们需要在任务域之间进行知识迁移 (Knowledge Transfer) 或迁移学习 (Transfer Learning)，避免高代价的数据标注工作。

01

从游戏AI到自动驾驶，一文看懂强化学习的概念及应用

强化学习（Reinforcement Learning，简称RL，又译为“增强学习”）这一名词来源于行为心理学，表示生物为了趋利避害而更频繁实施对自己有利的策略。例如，我每天工作中会根据策略决定做出各种动作。如果我的某种决定使我升职加薪，或者使我免遭处罚，那么我在以后的工作中会更多采用这样的策略。

03

强化学习从基础到进阶-常见问题和面试必知必答1：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

本质上是智能体与环境的交互。具体地，当智能体在环境中得到当前时刻的状态后，其会基于此状态输出一个动作，这个动作会在环境中被执行并输出下一个状态和当前的这个动作得到的奖励。智能体在环境里存在的目标是最大化期望累积奖励。

02

从Black Hat Speaker到国内外研究者：强化学习的安全应用

人工智能技术下的分支有很多，有机器学习、深度学习、强化学习、联邦学习等。笔者直观的理解，强化学习较其他人工智能技术而言，擅长决策和多步决策，大名鼎鼎的AlphaGo就是用强化学习做决策的，而“决策”二字才更能体现人的智能，也即强化学习更可能接近人的智能。

04

【综述】八千字长文解读迁移学习在强化学习中的最新进展

机器学习技术在许多领域取得了重大成功，但是，许多机器学习方法只有在训练数据和测试数据在相同的特征空间中或具有相同分布的假设下才能很好地发挥作用。当分布发生变化时，大多数统计模型需要使用新收集的训练数据重建模型。在许多实际应用中，重新收集所需的训练数据并重建模型的代价是非常昂贵的，在这种情况下，我们需要在任务域之间进行知识迁移 (Knowledge Transfer) 或迁移学习 (Transfer Learning)，避免高代价的数据标注工作。

02

强化学习(十七) 基于模型的强化学习与Dyna算法框架

在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学习流派，基于模型的强化学习(Model Based RL)，以及基于模型的强化学习算法框架Dyna。

02

独家 | 一文了解强化学习的商业应用

DeepMind开发的AlphaGo（用于下围棋的AI系统）的出现引起了强化学习的热潮。从那之后，许多公司开始投入大量的时间、精力来研究强化学习。目前，强化学习是深度学习领域中的热点问题之一。大多数企业都在努力寻找强化学习的应用实例或者将其应用在商业中的方法。目前来说，此类研究只在零风险、可观测并且易模拟的领域展开。所以，类似金融业、健康行业、保险业、科技咨询公司这样的行业不愿冒险去探索强化学习的应用。此外，强化学习中的“风险管理”部分给研究带来了很大压力。Coursera的创始人Andrew Ng曾表示：“强化学习在机器学习中，对数据的依赖远超过有监督学习。我们很难获得足够多的数据来应用强化学习算法。因此，将强化学习应用到商业实践中仍有许多工作要完成。”

03

深度强化学习——从DQN到DDPG

大家好，我是架构君，一个会写代码吟诗的架构师。今天说一说深度强化学习——从DQN到DDPG,希望能够帮助大家进步!!!

02

学界 | 斯坦福大学&DeepMind联合提出机器人控制新方法，RL+IL端到端地学习视觉运动策略

选自arXiv 作者：朱玉可等机器之心编译参与：路雪、思源近日，来自斯坦福大学&DeepMind 的研究者提出一种学习机器人深度视觉运动策略的新方法，它结合强化学习和模仿学习来实现高效的强化学习智能体，该方法可解决大量视觉运动任务。实验证明该智能体性能显著优于仅使用强化学习或模仿学习训练出的智能体。近期深度强化学习在多个领域取得了很好的表现，如视频游戏 [29] 和围棋 [46]。对于机器人，RL 结合强大的函数逼近器（如神经网络）可提供设计复杂控制器的通用框架，而这种控制器很难靠人力搭建。基于强化

05

TensorFlow 强化学习：6~10

到目前为止，我们已经涵盖了大多数重要主题，例如马尔可夫决策过程，值迭代，Q 学习，策略梯度，深度 Q 网络和参与者批评算法。这些构成了强化学习算法的核心。在本章中，我们将继续从演员评论家算法中停止的地方继续搜索，并深入研究用于深度强化学习的高级异步方法及其最著名的变体异步优势演员评论家算法，通常称为 A3C 算法。

05

一文入门深度强化学习

深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石，它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。

01

强化学习是如何解决问题的？

什么是强化学习算法呢？要回答这个问题，必须先回答强化学习可以解决什么问题，强化学习如何解决这些问题。

00

重磅综述: 迁移学习在强化学习中的应用及最新进展

机器学习技术在许多领域取得了重大成功，但是，许多机器学习方法只有在训练数据和测试数据在相同的特征空间中或具有相同分布的假设下才能很好地发挥作用。当分布发生变化时，大多数统计模型需要使用新收集的训练数据重建模型。在许多实际应用中，重新收集所需的训练数据并重建模型的代价是非常昂贵的，在这种情况下，我们需要在任务域之间进行知识迁移 (Knowledge Transfer) 或迁移学习 (Transfer Learning)，避免高代价的数据标注工作。

01

[机器学习|理论&实践] 强化学习原理与实践

强化学习是机器学习领域中一种重要且强大的学习范式，它通过智能体与环境的交互学习，在不断尝试和错误的过程中，优化其行为以最大化累积奖励。强化学习在许多现实场景中展现出了卓越的应用潜力，如自动驾驶、游戏策略优化、机器人控制等领域。

01

火星探测器背后的人工智能：从原理到实战的强化学习

火星，作为人类探索太空的下一个重要目标，一直吸引着科学家们的眼球。火星探测器作为探索这一未知世界的先锋，承担着巨大的任务和挑战。在这一任务中，强化学习（Reinforcement Learning, RL）作为一种智能学习方法，为火星探测器的自主决策提供了新的可能性。

01

配对交易千千万，强化学习最NB！（附文档+代码讲解）

本推文会介绍如何在利用股票分钟数据，基于强化学习来做配对交易。包括基本概念和具体实现；这里采用的强化学习方法，是类似多臂老虎机（N-armed bandit）问题。

05

模仿学习笔记：行为克隆

其中 sj 是一个状态，而对应的 aj 是人类专家基于状态 sj 做出的动作。（aj就是行为克隆遇到状态sj时，应该做出的动作）可以把 sj 和 aj 分别视作监督学习中的输入和标签。

03

机器人强化迁移学习指南：架设模拟和现实的桥梁

近年来，强化学习（Reinforcement learning）在人工智能领域中表现出了显著的性能，例如基于原始像素的 Atari 游戏，连续复杂控制策略的学习，以及在围棋游戏 Go 中超越人类的表现等。

01

深度强化学习（DRL）专栏（一）

【磐创AI导读】：本篇文章是深度强化学习专栏的第一篇，讲了引言和强化学习基础知识，希望对大家有所帮助。查看上篇关于本专栏的介绍：深度强化学习（DRL）专栏开篇。想要获取更多的机器学习、深度学习资源，欢迎大家点击上方蓝字关注我们的公众号：磐创AI。

02

强化学习常用算法+实际应用，必须get这些核心要点！

强化学习是一种机器学习技术，它使代理能够使用自身行为和经验的反馈通过反复试验在交互式环境中学习。

03

Gym平台在强化学习实验中的应用

原文出处：https://zhuanlan.zhihu.com/p/114392519.知乎

02

总结 | 叶志豪：介绍强化学习及其在 NLP 上的应用

AI 科技评论按：当 AlphaGO 横扫之后，越来越多的学者意识到强化学习在人工智能领域所扮演的重要角色。同时随着深度学习的发展，应用深度学习，很多自然语言的传统难题得到突破。另外，引用 David Silver 的一句话：深度学习 (DL)+ 强化学习 (RL) = 人工智能 (AI)。

03

强化学习（一）模型基础

从今天开始整理强化学习领域的知识，主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇，希望写完后自己的强化学习碎片化知识可以得到融会贯通，也希望可以帮到更多的人，毕竟目前系统的讲解强化学习的中文资料不太多。

03

易忽略的强化学习知识之基础知识及MDP

推荐阅读时间：8min~12min 主要内容：容易忽略的强化学习知识之基础知识及MDP 由于我对RL的期望挺大，很看好它的前景，故之后应该会写下一个系列的强化学习文章，标题是易忽略的强化学习知识之XX，也就是说，我写下的是我觉得有必要知道比较重要并容易忽略的知识。也许不会所有强化学习的知识都全面的写，但希望可以对大家有所帮助，同时巩固我自己的知识！强化学习是什么？和监督学习，无监督学习是什么关系？强化学习的主要应用是什么？在其他如NLP的应用呢？模仿学习是什么？和强化学习联系？强化学习的整体运行流程

08

强化学习的基础知识和6种基本算法解释

通俗地说，强化学习类似于婴儿学习和发现世界，如果有奖励(正强化)，婴儿可能会执行一个行动，如果有惩罚(负强化)，婴儿就不太可能执行这个行动。这也是来自监督学习和非监督学习的强化学习之间的主要区别，后者从静态数据集学习，而前者从探索中学习。

03

强化学习系列之一:马尔科夫决策过程

文章目录 [隐藏] 1. 马尔科夫决策过程 2. 策略和价值 3. 最优策略存在性和贝尔曼等式强化学习系列系列文章机器学习一共有三个分支，有监督学习、无监督学习和强化学习。强化学习是系

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭