腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2109)
视频
沙龙
1
回答
使用
cnn
Q-
近似
构建
深度
强化
学习
、
、
、
从这段代码https://github.com/jaromiru/cwcf开始,我想用
CNN
替换用于Q函数
近似
的MLP,但我不知道该怎么做。有人能帮我吗?谢谢
浏览 19
提问于2020-04-01
得票数 1
回答已采纳
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
、
、
深入的
Q-
学习
,A3C,政策进化的遗传算法,他们都没有
学习
小行星,或至少表现比人类差得多。根据RL的说法,从最艰难的Atari游戏来看,大部分的焦点都集中在蒙特祖马的复仇上,这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用):
深度
强化
学习
的大规模并行
学习
方法
浏览 0
提问于2018-02-16
得票数 3
回答已采纳
1
回答
如何用不同的模型对基于DQN的
深度
神经网络进行
强化
学习
?
、
、
、
如果不
使用
深层神经网络(DNN)来实现
强化
学习
算法,比如
深度
Q-
网络(DQN),可以实现吗?在下面的DQN伪码中,如果我想用另一种无监督算法替换DNN部分,它可能吗?
浏览 0
提问于2018-08-31
得票数 3
1
回答
基于
强化
深度
学习
的目标检测
、
、
、
、
在阅读了
使用
CNN
(R,较快R,YOLO,YOLOv2,SSD)的目标检测技术的最新进展之后,我想知道是否有一种有效的方法将
深度
学习
和
强化
学习
用于对象检测?
浏览 0
提问于2018-02-23
得票数 0
回答已采纳
1
回答
并行
Q-
学习
、
、
、
、
我正在寻找学术论文或其他可信的来源,侧重于平行
强化
学习
的主题,特别是
Q-
学习
。我最感兴趣的是在进程之间共享Q表的方法(如果每个进程都有自己的进程,则将它们连接/同步在一起)。我也希望对链接/提到的来源中
使用
的方法进行简要的描述。 我应该指出,我
使用
神经网络(PyBrain)作为
近似
。
浏览 0
提问于2016-01-14
得票数 4
6
回答
如何将
强化
学习
应用于连续动作空间?
、
、
、
我试图找一个代理来
学习
在
强化
学习
环境中最好地执行某些任务所需的鼠标移动(即奖励信号是
学习
的唯一反馈)。我希望
使用
Q-
学习
技术,但是虽然我已经找到了,但我似乎不知道如何用一个连续的操作空间来解决问题。由于标准的
Q-
学习
要求agent对所有可能的行为进行评估,这样的
近似
并不能解决任何实际意义上的问题。
浏览 8
提问于2011-08-17
得票数 50
回答已采纳
1
回答
连续
强化
学习
优化
我正在实现连续
强化
学习
(用
深度
强化
学习
的连续控制),但在优化策略-神经网络时遇到了一些问题。然而,由于
Q-
神经网络(最初)不是Q(状态,动作)的完全逼近,当政策的作用变得很大/无限时,我遇到了问题。当行动->无限时,
Q-
>无穷大,这意味着策略的权重被优化到非常大或无限大的值。Morover,当政策开始输出接近无穷大的值时,这意味着
q-
值变得太大,而增强值变得不相关,因为"r + gamma*Q“被非常大的
q-</
浏览 1
提问于2017-04-29
得票数 2
1
回答
Q-
学习
算法会变得过度训练吗?
、
、
证明了
Q-
学习
算法收敛于最优策略的Qs是唯一的。那么,得出
Q-
学习
算法不能被过度训练的结论是正确的吗?
浏览 3
提问于2016-09-04
得票数 1
回答已采纳
2
回答
强化
学习
算法
、
我想用
强化
学习
机器
学习
的方法来研究和开发一些应用。我已经熟悉
使用
监督
学习
的分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
1
回答
在函数逼近的
Q-
学习
中,是否有可能避免手工制作的特性?
、
、
、
我几乎没有机器
学习
的背景知识,所以如果我的问题显得很愚蠢,请原谅我。基于我所读到的,到目前为止最好的无模型
强化
学习
算法是
Q-
学习
,其中在代理世界中的每个状态,动作对都被赋予一个
q-
值,并且在每个状态下选择Q值最高的动作。因此,在
Q-
学习
的实际实现中,需要通过对状态特征的推广,
使用
Q-
值
近似
.例如,如果代理是Pacman,那么其特性将是: 帕克曼在隧道里
浏览 4
提问于2014-12-09
得票数 4
回答已采纳
1
回答
Q-
学习
中的状态表示
、
、
我有一个相当简单的游戏,我希望
使用
q-
学习
来训练一个代理,但是我有一些关于状态表示的问题。我的理解是,为了成功地实现
Q-
学习
,您需要列举这个游戏的所有可能的状态。这是怎么做的?
浏览 0
提问于2019-05-04
得票数 3
2
回答
神经网络中的
Q-
学习
而不是
学习
、
、
我已经在这个神经网络中实现了
Q-
学习
,然而,它并没有导致代理赢得更多的游戏时间(甚至在100万次游戏之后)。我将尝试用文字解释我做了什么,希望有人能发现一个错误,这可能导致这个问题。Q值是
使用
乙状结肠或RELU激活函数来确定的(我尝试了两者)。 我的qValues似乎要么很低(按0.0001的顺序)
浏览 2
提问于2016-10-19
得票数 2
1
回答
如何在训练后保存RL模型
我查看了这个简单的
强化
学习
sarsa代码。 我看不到的是如何存储它的模型,就像我们过去在
深度
学习
中存储
CNN
中的权重一样,所以我们可以加载模型并运行它,而不需要每次都训练它。在这方面有可能实现吗?
浏览 1
提问于2020-03-31
得票数 0
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
、
、
、
、
我的课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前在机器
学习
中所知道的-统计推断可能是
近似
正确的模型,包括泛化界和模型选择。支持向量机(SVM)促进弱
学习
者向强
学习
者
学习
: AdaBoost回归决策树
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
1
回答
如何营造自己的
强化
学习
环境?
、
、
我们如何建立自己的
强化
学习
环境?我很怀疑游戏引擎是否被
使用
..。如果
使用
游戏引擎,哪个游戏引擎可以免费下载?
浏览 0
提问于2021-04-17
得票数 2
2
回答
理解为什么在深层
强化
学习
中数据的相关性降低了有效性。
、
、
从纸上 通过深入
强化
学习
来控制人的层次,Mnih等。什么是假设的场景,或实际的例子,在序列中存在的相关性干扰了“
深度
学习
”
近似
器的
使用
?
浏览 0
提问于2018-01-15
得票数 1
2
回答
为什么要将马尔可夫性质引入
强化
学习
?
、
、
作为
深度
强化
学习
的初学者,我很困惑为什么我们应该在
强化
学习
中
使用
马尔可夫过程,以及它给
强化
学习
带来了什么好处。另外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些
深度
强化
学习
算法可以
使用
RNN和LSTM?这是否违反了马尔可夫过程的假设?
浏览 4
提问于2020-12-23
得票数 0
3
回答
大多数零值数据的
深度
神经网络
、
、
、
、
我应该
使用
哪种
深度
神经网络方法?我在考虑RNN或
CNN
,但我不确定这些是否是最好的选择。我在考虑一些会忽略零值的方法,即在计算中不考虑零值。我觉得RNN能做到。但我不太确定。
浏览 0
提问于2017-08-07
得票数 4
2
回答
Pytorch -在eval()和train()模式之间来回往返
、
、
、
、
我正在
学习
“
深度
强化
学习
”,并在pytorch的
强化
学习
(DQN)教程之后
构建
我自己的示例。据我所知,在
使用
BatchNorm1d时,必须执行model.eval()才能
使用
模型,因为eval()和train()模式有不同的结果。在训练分类神经网络时,model.eval()只在训练结束后进行,但在“
深度
强化
学习
”的情况下,通常采用策略,然后继续优化过程。 我想知道不同模式之间的来
浏览 3
提问于2019-10-18
得票数 3
回答已采纳
2
回答
什么是“经验回放”,它的好处是什么?
、
经验重播出现在许多其他
强化
学习
论文(特别是AlphaGo论文)中,所以我想了解它是如何工作的。以下是一些摘录。首先,我们
使用
了一种被称为经验回放的生物激励机制,它将数据随机化,从而消除了观测序列中的相关性,并平滑了数据分布的变化。然后,本文详细阐述了以下内容: 而在
强化
学习
设置中训练神经网络的其他稳定方法,如神经拟合
Q-
迭代法,则需要对网络进行重复训练,以达到数百次迭代。我们
使用
图1所示的深卷积神经网络参数化了一个
近似
值函数Q(s, a; \theta
浏览 0
提问于2017-07-19
得票数 49
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Keras进行深度学习(二):CNN讲解及实践
树莓派深度学习:使用 Raspberry Pi和YOLO 构建深度学习相机
如何使用 CNN 推理机在 IoT 设备上实现深度学习
深度强化学习系列之-OpenAI-Baselines的使用方法
谷歌使用深度强化学习发现了更快的排序算法
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券