腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Python还是
Matlab
用于咖啡豆?
、
、
、
、
我将致力于
DQN
的实现和最近在Caffe中的谷歌DeepMind的扩展。对于这个任务,在Python和
Matlab
之间选择还有其他考虑吗?应该注意的是,我在Python开发方面的经验要比
Matlab
开发丰富得多(除了将它用作数学课的工具等),但是我正在合作的一个团队似乎主要使用
Matlab
。
浏览 4
提问于2015-10-12
得票数 2
回答已采纳
1
回答
决斗
DQN
和双
DQN
的区别?
、
、
、
我读过一些文章,但还是找不出决斗
DQN
和双
DQN
之间的区别吗?他们之间到底有什么区别?另外,决斗
DQN
需要建立在双
DQN
之上吗?谢谢!
浏览 0
提问于2019-05-31
得票数 3
2
回答
将具有第一行标题的二维数组转换为object JavaScript
、
、
我有一个以第一行作为标题的数组: array = [[ 'combi', 'DQ#', 'sd', 'Level 3', 'Level 6', 'Level 7' ], [ '
DQn
DQDC Simple','
DQn
', 'DQDC', 'Simple', 'Simple_A7', 0.262],[ '
DQn
浏览 39
提问于2021-04-07
得票数 2
回答已采纳
2
回答
如何理解这个map-reduce代码是如何工作的?
= v, acc), {})) [ 'combi', 'DQ#', 'sd', 'Level 3', 'Level 6', 'Level 7' ], [ '
浏览 16
提问于2021-10-05
得票数 0
回答已采纳
2
回答
基于
DQN
的健身赛车v0
、
、
、
、
我已经成功地使用了PPO算法,现在我想使用
DQN
算法,但是当我想训练模型时,它给了我这个错误: import osfrom stable_baselines3 import
DQN
env = DummyVecEnv([lambda: env]) log_path
浏览 4
提问于2022-03-31
得票数 2
1
回答
使用MultiDiscrete ActionSpace AttributeError的健身房RL:'MultiDiscrete‘对象没有属性’空格‘
我正在尝试构建一个强化学习算法,它可以玩MasterMind游戏。我使用的是MultiDiscrete功能和观测空间。动作空间有4个插槽,每个有6种颜色,观察空间是2x4。我创建了一个自定义环境来连接我的程序游戏。由于出现错误,环境还没有准备好。也许有人能帮我解决这个问题。from gym import Envfrom stable_baselines3.common.policies import MultiInputActorCriti
浏览 0
提问于2022-10-21
得票数 0
1
回答
tf_agents
dqn
初始化失败
、
、
、
connect 4 board import tensorflow as tffrom tf_agents.agents.
dqn
import
dqn
_agentimport numpy as np agent =
dqn</
浏览 12
提问于2022-09-05
得票数 0
回答已采纳
1
回答
AttributeError:'Adam‘对象没有属性'_name’
、
、
、
我想编译我的
DQN
代理,但是我得到了错误:AttributeError: 'Adam' object has no attribute '_name',
DQN
.compile(Adam(lr=1e-3), metrics=['mae']) 我试着添加假_name,但它不起作用,我正在学习一个教程,它可以在家教的机器上工作,这可能是一些新的更新更改from keras.layers import Dense, Flat
浏览 8
提问于2022-04-16
得票数 1
回答已采纳
1
回答
需要在lua中具有不同文件名的包。
、
遵循,我试图将DeepMind
dqn
导入到iTorch笔记本中。package.path = package.path .. ";/path/to/
dqn
/?.lua"require '
dqn
' 我获得了一个(预期的)错误,因为文件夹中没有名为
dqn
.lua的文件。实际上,这些模块的源代码包含在文件Neura
浏览 3
提问于2015-11-16
得票数 1
回答已采纳
1
回答
为什么我的奖励函数在Python中返回None?
、
、
、
、
好的,因此,我正在尝试使用keras和tensorflow来创建一个内在的好奇心代理。该智能体的奖励函数是自动编码器在前一状态和当前状态之间的损失以及自动编码器在当前状态和想象的下一状态之间的损失的差值。然而,这个奖励函数总是返回None,而不是实际的差值。我试着把损失打印出来,但它总是给出正确的值。 奖励函数/重放代码: def replay(self, batch): for prev_state, actions, state, reward, imagined_
浏览 15
提问于2019-09-17
得票数 0
2
回答
如何在RL中获取q值
、
、
、
DQN
是正常网络,TAR是目标网络。q_values = self.
DQN
.predict(c_states) #
DQN
batch predict Q on states tar_next = self.TAR.predict(n_states) # TAR batch:q_values[i][actions
浏览 6
提问于2019-12-22
得票数 1
回答已采纳
1
回答
jupyter笔记本与命令行之间tf的性能
、
、
我注意到在jupyter笔记本中运行tensorflow代码与从命令行作为脚本运行tensorflow代码时有相当大的性能(速度)差异。设置:Linux: 3.13.0-79 UbuntuPython: 3.5.2区Anaconda自定义(64位) 库达图书馆: libcublas.so.7.5,libcudnn.so.5,libcufft.so.7.5,libcuda.
浏览 5
提问于2016-09-04
得票数 5
1
回答
PyTorch软件最大返回
、
、
))test_net = self.policy_net(input).max(1)[1].view(1, 1)class
DQN
(nn.Module): super(
DQN
, self).
浏览 0
提问于2020-08-03
得票数 0
回答已采纳
1
回答
彩虹对A3C ...too不公平?
在深邃心灵的彩虹纸上,为什么A3C算法会这么慢?比DDQN慢两倍。这是对一个演员的训练吗?📷例如,就像这样,从这里取走: 📷
浏览 0
提问于2018-06-18
得票数 3
1
回答
如何总结pytorch模型
、
你好,我正在构建一个
DQN
模型,用于在cart极上进行强化学习,并希望打印我的模型摘要,比如keras model.summary()函数。 super(
DQN
, self).n_hidden = 50lr = 0.001 我尝试使用torchinfo摘要,但是我得到了一个AttributeError:'<e
浏览 2
提问于2022-11-16
得票数 0
1
回答
dqn
培训部分与SVR和RF的比较
、
、
、
、
我在理解
DQN
的培训部分有一些问题。和Ytrain在
DQN
的哪里?因为
DQN
算法不清楚。https://cdn-images-1.medium.com/max/1600/1*nb61CxDTTAWR1EJnbCl1cA.png 另外,如果需要比较
dqn
的结果与随机森林和支持向量回归的结果。
浏览 2
提问于2018-07-26
得票数 0
1
回答
如何构建基于环境状态在环境中选择正确对象的
DQN
?
、
、
、
因此,我的
DQN
所采取的行动应该类似于- [1,0,1,1],[0,0,0,1],[1,1,0,0]...etc。 其中1表示对象被选中,0表示对象未被选中。作为
DQN
输入的环境状态由每个对象的属性和环境的其他因素组成。
DQN
将根据它所做的选择获得奖励。我刚开始强化学习,我只构建了
DQN
,它需要从整个动作空间中选择一个动作。但是如何为这个特定的环境构建一个
DQN
或强化学习网络呢?
浏览 0
提问于2020-05-22
得票数 1
回答已采纳
1
回答
DoubleDQN与
DQN
的性能比较
、
我在健身房NChain游戏上尝试了DoubleDQN和
DQN
算法,发现DoubleDQN的性能并不比
DQN
更稳定或更好。我将每次操作后训练的批量大小设置为1,我可以知道这是DoubleDQN没有优于
DQN
的原因吗?
浏览 5
提问于2019-07-05
得票数 0
1
回答
使用cnn Q-近似构建深度强化学习
、
、
、
我是DRL的新手。从这段代码https://github.com/jaromiru/cwcf开始,我想用CNN替换用于Q函数近似的MLP,但我不知道该怎么做。有人能帮我吗?谢谢
浏览 19
提问于2020-04-01
得票数 1
回答已采纳
1
回答
如何确定在
DQN
模型中使用正奖励还是负奖励?
、
、
、
我刚接触深度强化学习,
DQN
模型。我使用Open AI gym分别重现了一些名为CartPole-v0和MountainCar-v0的实验。它还在这里解释了How does
DQN
work in an environment where reward is always -1。 所以这让我感到困惑,如何确定动作或状态的奖励?
浏览 98
提问于2020-07-21
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
DQN三大改进(一)-Double DQN
强化学习:DQN与Double DQN讨论
DQN论文理解
学习DQN
深度强化学习 DQN 初探
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券