腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
打折
奖励
函数
是
反向
的
?
、
、
、
、
我正在解决麻省理工学院强化学习实验室
的
问题,并被
奖励
函数
卡住了。特定
的
代码块
是
:<code>C0</code><code>A1</code><code>A2</code> 提供
的
解释
是
,我们希望鼓励尽早获得
奖励
。
浏览 28
提问于2020-03-17
得票数 1
回答已采纳
1
回答
为什么
我
的
Tic脚趾深度Q-学习实现不学会阻止对手
的
移动?
、
、
、
零
奖励
不终止移动和平局。胜利
的
奖励
是
1。q值,我使用状态
的
目标q值和操作a来更新q
函数
。目标Q值(s,a) =伽马*(
奖励
(s,a) -Q值(s‘,a')) 其中,gamma=1,s‘
是
移动a在状态s完成后
的
下一个状态,a’
是
由q
函数
决定
的
下一个玩家
的
下一个最佳移动。根据我对minimax算法
的
理解,我正在从
奖励
浏览 6
提问于2020-05-07
得票数 1
1
回答
基本强化学习中
的
折扣
奖励
、
、
我想知道强化学习
的
奖励
折扣实际上
是
如何起作用
的
。我相信这个想法
是
,在一集
的
后期
奖励
比早期
的
奖励
更重。这对我来说很有意义。在我看到
的
示例中,我很难理解这实际上
是
如何工作
的
。我假设下面的代码
是
进行强化学习
的
标准方法。我对这段代码
的
解释如下:遍历每个动作,训练预测动作好坏
的
模型。 这似乎所做
的
<em
浏览 3
提问于2019-04-21
得票数 1
1
回答
CartPole任务
的
最佳目标
函数
是什么?
、
、
我正在做策略梯度,我试图找出任务
的
最佳目标
函数
是什么。该任务
是
开放
的
ai CartPole-v0环境,在该环境中,代理在每个生存时间步长获得1
的
奖励
,在终止时获得0
的
奖励
。我正在尝试找出对目标
函数
进行建模
的
最佳方法。我想出了3个可能
的
函数
: return su
浏览 13
提问于2017-01-17
得票数 0
回答已采纳
1
回答
腾讯云自媒体分享计划
奖励
领取CVM?
、
、
腾讯云自媒体分享计划
奖励
领取CVM
的
180代金券
是
只能买无折扣
的
服务器还是可以购买
打折
例如 一年2H4G
的
服务器 168那种?
浏览 181
提问于2022-07-16
2
回答
强化学习中
的
负反馈
、
、
、
、
我无法回答这样
的
问题:,负回报到底
是
如何帮助机器避免
的
?这个问题
的
起源来自。根据他们
的
逻辑,一旦游戏结束(代理赢或输分),环境返回
奖励
(+1或-1)。任何中间状态返回0作为
奖励
。然后他们给
奖励
打折
扣并使其标准化:prwd = discount_rewards(rwd, args.gam
浏览 0
提问于2019-02-19
得票数 0
回答已采纳
1
回答
深度强化学习中
的
有效
奖励
范围
在DQN、Actor-Critic或A3C中选择
奖励
值时,是否有选择
奖励
值
的
通用规则?你能告诉我什么建议和原因吗?
浏览 35
提问于2018-08-13
得票数 1
1
回答
强化学习-如何计算MRP中
的
这些状态值?
、
这是RL简介书中
的
一个问题,第125页,示例6.2。该示例比较了TD(0)和常数\alpha MC在以下马尔可夫
奖励
过程中
的
预测能力(图像是从书中复制
的
):在上面的MRP中,所有的事件都从C状态开始,然后在每一步中都可以左转或右转(概率相等)。当一集在右边结束时,就会出现+1
的
奖励
;所有其他
奖励
都为零。例如,一个典型
的
插曲可能由以下状态和
奖励
序列组成: C,0,B,0,C,0,D,0,E,1。因为这个任务
是
不
浏览 0
提问于2018-11-08
得票数 4
回答已采纳
1
回答
奖励
购物车杆子问题强化学习
对于购物车杆子平衡问题,我想知道
为什么
这么多用于控制器
的
强化学习实现都有一个
奖励
函数
,每当杆子倒下时
奖励
-1,而对于杆子保持直立
的
每个时间步
奖励
0。如果倒下立即产生与平衡一分钟后倒下
的
奖励
相同
的
奖励
,这将如何训练系统?
浏览 0
提问于2021-04-07
得票数 0
1
回答
损失策略梯度强化学习
、
、
我正在使用策略梯度训练我
的
网络,并将损失定义为: self.loss = -tf.reduce_mean(tf.log(OUTPUT_NN)* self.REWARDS)) self.opt = tf.train.AdamOptimizer(self.lr).minimize(self.loss) 我不明白
的
是
,损失
函数
有时
是
正
的
,有时
是
负
的
。我不理解信号中
的
这种反转。对于我来说,它应该总是负
的
,因为我在tf.re
浏览 51
提问于2019-07-03
得票数 0
1
回答
Q学习神经网络何时训练网络
、
、
这是我在一个Q学习神经网络上
的
另一个问题,它被用来赢得抽搐脚趾,那就是我不知道什么时候才能通过网络进行
反向
传播。我现在要做
的
是
,当程序在游戏中运行时,如果记录
的
游戏集数量达到最大值,每次程序移动时,它将从内存中选择一个随机
的
游戏状态,并使用该游戏状态和
奖励
进行
反向
传播。这将在每次程序移动时继续,因为从那时起,重放内存将始终是满
的
。从历史上看,
奖励
与游戏状态和行为之间
的
关联
是
,当一场
浏览 0
提问于2018-01-13
得票数 1
回答已采纳
1
回答
策略梯度网络中
的
自动区分
、
、
、
我确实理解策略梯度网络中
的
反向
传播,但不确定如何与自动区分
的
库一起工作。Y = self.probs + self.learning_rate * np.squeeze(np.vstack([gradients]))
为什么
Y不是所采取行动
的
1-热向量?他正在计算梯度,假设动作
是
正确
的
,Y
是
一个热向量。然后,他将其乘以相应时间步中
的
奖励</e
浏览 0
提问于2017-06-25
得票数 0
3
回答
Delphi/Pascal (时态差异学习)中
的
TD(λ)
、
、
、
我所拥有的: 我
的
方法到目前为止.跟踪衰变参数λ应该是"0.1“,因为远端状态不应该得到那么多
的
奖励
浏览 1
提问于2011-01-30
得票数 4
回答已采纳
1
回答
强化学习中
的
不平衡折扣
奖励
:这是一个问题吗?
、
在我看来,折扣
奖励
似乎
是
不平衡
的
。如果我们以一个有4个动作
的
插曲为例,其中每个动作都得到+1
的
奖励
:最后一个动作
的
折扣
奖励
是
:1 从直觉上看,这两种行为都是一样好
的
,因为两者都得到了同样
的
回报。但他们<
浏览 0
提问于2019-08-08
得票数 0
回答已采纳
2
回答
这个MEV试图达到什么目的?
、
、
0x8b0351a83e453e30a8b4ada8adc1ce42dac73c05bc2ba87304906f1eed8a77a2我不明白他
的
目的是什么
浏览 0
提问于2022-12-05
得票数 1
1
回答
DCG测度
的
两个定义
、
、
、
、
我想检查原论文贾维林中关于折现累积增益
的
定义,它似乎与后来
的
文献王中
的
定义不同。最初,对于从$r = 1,\ldots,p$排序
的
$r文档,$\text{DCG}_p$定义为$$\text{DCG}_p =\sum\limits_{r=1}{b} G_r +\sum\limits_{r=b}{p}{G_r}{\log_br},$$中$G_i$
是
$i-th文档
的
相关性(或增益)。对于低于$b$
的
等级,即$r维基百科上给出
的
参数不同,其中对数
的</
浏览 0
提问于2018-08-10
得票数 2
2
回答
RL可逆价值
函数
法--
为什么
它能防止
奖励
爆炸?
“重复使用RL
的
经验”,第3页
的
作者,使用
函数
h来防止
奖励
爆炸:这与一种更常见
的
“悬赏剪裁”技术不同。这样做
的
效果
是
Q-目标分数保持不变
浏览 0
提问于2019-06-07
得票数 0
回答已采纳
1
回答
是否有使用强化学习进行文本分类
的
例子?
、
、
、
想象一个像情感分析这样
的
二元分类问题。既然我们有标签,我们就不能利用实际预测之间
的
差距作为对RL
的
奖励
吗? 我想尝试对分类问题进行强化学习
浏览 1
提问于2017-06-20
得票数 8
1
回答
我如何在lua中实现这个逆指数?
、
、
3.18 -> 3.56 -> 44 -> 52 -> 7基本上,我试图
反向
工程一个功能,计算Xp
奖励
给一个球员。第一个数字
是
输入
函数
的
数字,而第二个数字
是
它返回
的
数字。在可视化返回
的
数字之后,我发现它们
是
一个逆指数,但我在lua中实现它们没有运气。
浏览 0
提问于2018-05-01
得票数 0
回答已采纳
1
回答
Q-学习与神经网络相结合(有益
的
理解)
、
、
据我所知,用神经网络来估计这些状态-动作对,可以代替Q-值
的
查找表(状态-动作对-评估)。我编写了一个小型图书馆,它可以通过一个自建
的
神经网络来传播和
反向
传播,用来学习特定输入输出
的
目标值。对于每一个动作,都有一个额外
的
输出神经元,其中一个输出
的
激活值“单位”告诉我,估计
的
Q值。(一个问题
是
:激活值是否与神经元
的
“输出”相同?)我使用标准
的
sigmoid
函数
作为激活
函数
,因此<em
浏览 2
提问于2012-11-19
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
vlookup函数的“反向”查找是怎么完成的?
Excel中用VLOOKUP函数进行反向查找的方法
为什么梯度是函数变化最快的方向
为什么mail函数在PHP中是危险的
为什么说区块链是不可篡改的?区块链与哈希函数
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券