腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(97)
视频
沙龙
1
回答
强化学习中的行动极限变化
我想使用
DDPG
在虚拟环境中构建一个自治的船只。然而,问题是有一个动作空间( -180‘,+180')用于转向,而
DDPG
可以选择-180’at (t-1)和+180‘at (t+1),这在现实世界中是不可能的。(第一个选项)用更改的操作更新
DDPG
。 (第二个选项)用最初采取的行动更新
DDPG
。
浏览 0
提问于2019-03-10
得票数 0
回答已采纳
1
回答
错误:`callbacks`必须是返回DefaultCallbacks子类的可调用方法,got <类callbacks`
、
、
、
当我运行一些代码(
DDPG
-深度确定性策略梯度)时,出现以下错误: ValueError:callbacks必须是返回DefaultCallbacks的子类的可调用方法,got <类
DDPG
我的代码如下: import json log_dir = "/root/ray_results/
DDPG
_SimpleSupplyChain_2020-07-15_open(f"{log_dir}/params.json", &
浏览 22
提问于2020-07-15
得票数 1
1
回答
DDPG
策略网络的输出可以是概率分布而不是某个动作值吗?
、
我们知道,
DDPG
是一种确定性的策略梯度方法,其策略网络的输出应该是某个动作。输出的形式类似于随机策略梯度方法,但梯度是计算的,网络是以
DDPG
的方式更新的。最后,我发现结果看起来相当不错,但我不明白为什么它会工作,因为输出形式并不完全符合
DDPG
的要求。
浏览 2
提问于2019-12-22
得票数 1
1
回答
为什么
DDPG
的政策目标是Q值本身?
有人能解释一下为什么
DDPG
的政策目标是Q(s,\mu(s))吗? 我对
DDPG
的理解是这样的。由于在连续空间中计算argmax_a Q(s,a)是很难的,因此
DDPG
使用了一种通用函数估计器(神经网络)来学习和预测实现maxQ(s,a)输出的最佳动作。那么,我的问题是,
DDPG
培训\mu(s)的实际目标是什么?我认为这应该是在给定状态s (argmax_aQ(s,a))时给出最高Q值的实际操作。
浏览 0
提问于2019-08-13
得票数 1
1
回答
Ray - RLlib -自定义环境错误-连续动作空间-
DDPG
-离线体验培训?
、
、
、
为
DDPG
使用脱机体验时出错。自定义环境维度(动作空间和状态空间)似乎与
DDPG
RLLIB训练器中的预期不一致。 'NM_testing_
DDPG
_offpolicy_noIS': { 'run': '
DDPG
&
浏览 6
提问于2019-04-18
得票数 2
1
回答
为什么
DDPG
/TD3不能从旧数据和PPO中获益?
在我看来,
DDPG
和PPO都是建立在A2C的基础上,并同时训练演员和评论家。PPO使用策略的比率来限制逐步大小,而
DDPG
则使用策略来预测批判者计算的值的动作。因此,在这两种方法(PPO和
DDPG
)中,都将当前的两种策略用于批评者和参与者的损失函数中。所以现在来问我的实际问题:为什么
DDPG
能够从旧数据中受益,或者更确切地说,为什么PPO不能从旧数据中受益。可以说,PPO中的策略比例限制了策略与其之间的距离,因此需要新的数据。但是,与
DDPG
相比,A2C如何在政策上不能从旧数据中获益呢? 我确实理解Q学习
浏览 6
提问于2019-09-25
得票数 1
1
回答
为什么
DDPG
是策略梯度方法?
、
、
、
为什么
DDPG
是一个策略梯度方法,即使它的参与者没有输出概率?
浏览 0
提问于2021-04-10
得票数 1
回答已采纳
1
回答
多线程算法中如何允许keras模型预测函数?
、
、
、
、
其中的预测看起来很简单,如下:label = np.argmax(model.predict(x.reshape(1,28,28,1)))from stable_baselines.
ddpg
.policiesimport MlpPolicy model_
ddpg
=
DDPG
(MlpPolicy, env, verbose=1, param_noise=
DDPG
(MlpPolicy, env,
浏览 2
提问于2020-03-17
得票数 1
1
回答
策略梯度算法中的目标网络在简单术语中的强化学习是什么?
、
如何区别于常规网络源文本->“在
DDPG
算法拓扑中包含两个网络权重副本(Actor:正则和目标)和(评论:正则和目标)”
浏览 2
提问于2020-01-24
得票数 2
1
回答
如何将model.learn()指定为在稳定基线3的某一集内结束?
、
、
import gymfrom stable_baselines3 import
DDPG
model =
DDPG
, action_noise=action_noise, verbose=1) model.learn(total_timesteps=60, log_int
浏览 14
提问于2022-02-05
得票数 0
1
回答
如何在flow上使用RL算法?
我想使用RL算法来训练我的项目。但是我在flow目录上找不到,我可以使用多少种算法,并且有一些关于这些算法的解释文档,或者如果我想创建一个自定义算法,该怎么做?
浏览 22
提问于2019-07-25
得票数 0
1
回答
Google的深层思维使用哪种策略梯度方法来教AI走路
、
、
、
、
是
DDPG
还是D4PG还是什么?
浏览 0
提问于2021-04-10
得票数 3
回答已采纳
1
回答
openai spinningup中的RL PPO动作空间裁剪
、
、
但是,只有
DDPG
、SAC和TD3才有名为"action_limit“变量。 我现在正在使用PPO,我还需要剪辑(给下限和上限)动作,因为我的机器人只在0,200.0范围内工作。是否因为PPO算法不需要与
DDPG
、SAC、TD3不同action_limit?或者是spinningup的错误,他们没有把action_limit放在PPO上?
浏览 97
提问于2021-04-13
得票数 1
1
回答
我想在稳定基线3中获得csv格式的片段奖励。
、
CheckpointCallback, CallbackList, StopTrainingOnMaxEpisodes, EveryNTimestepsmodel.learn(total_timesteps=1e6, log_inter
浏览 9
提问于2022-02-07
得票数 0
2
回答
Tensorflow: AttributeError:'function‘对象没有属性'graph’
、
、
-2/main.py", line 18, in <module> File "D:/Documents/PycharmProjects/
DDPG
-master-2/main.py-2\
ddpg
.py", line 50, in __init__ File "D:\Documents\PycharmProjects\
DDPG
-master-
浏览 3
提问于2019-01-14
得票数 2
1
回答
我的
DDPG
模型TF2得到了可怕的结果。
、
、
、
、
你好,我在TF 2中实现的
DDPG
模型在openai-gym上的每个环境中都有可怕的结果,我需要帮助来找出问题所在。我在我的GPU上运行它。在环境摆上,我每集得到-1200/-1000的奖励。self.act_buf[idx], d=self.done_buf[idx]) action_max1 = env.ac
浏览 17
提问于2021-05-23
得票数 0
1
回答
DDPG
不收敛
、
、
我试图在tensorflow中实现深度确定性策略梯度算法,但策略并没有收敛到任何好的地方。我正在测试cartpole问题。在演员身上做梯度上升和梯度下降似乎没有什么不同。一定有什么不对劲的地方,但我不知道怎么找到它。 predicted_actions = a
浏览 0
提问于2017-10-01
得票数 2
1
回答
当下一个状态与同一集的prev_state相同时的深度强化学习行为
我想知道是否有人用
DDPG
尝试过这个问题(因为有连续的动作空间)。这是一个RL问题吗? 如果我们尝试用
DDPG
运行这样一个问题(在采取行动后状态不会改变),你知道行为会是什么吗?
浏览 1
提问于2020-09-20
得票数 0
2
回答
Unity ML-代理运行非常慢
、
、
、
我正在运行类似于this的东西,使用
DDPG
和CUDA9.0的PyTorch实现。这是预期的行为吗?
浏览 24
提问于2019-03-24
得票数 0
回答已采纳
1
回答
在Keras中反演梯度
、
、
、
我试图将BoundingLayer函数从移植到中的
DDPG
.py代理,但在实现时遇到了一些问题。我修改了
DDPG
.py中的get_gradients(loss, params)方法,添加了以下内容:for
浏览 7
提问于2017-07-14
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
深度强化学习-DDPG算法原理和实现
DDPG强化学习的PyTorch代码实现和逐步讲解
使用Actor-Critic的DDPG强化学习算法控制双关节机械臂
从Q学习到DDPG,一文简述多种强化学习算法
DQN、A3C、DDPG、IQN…你都掌握了吗?一文总结强化学习必备经典模型(一)
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券