腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7857)
视频
沙龙
1
回答
奖励
分布
强化
学习
挑战在于,我们不知道每个细胞的
奖励
是什么,但当我们通过并完成一条路径时,我们将获得总体
奖励
。例如:一个解决方案可以是RRDDRDR,总体
奖励
是16。S 3 5 1 5 1 2 4 5 1 7 3 1 2 8 9 2 1 1 e 目标是从头到尾找到一组动作,使获得的总体
奖励
最大化。我们如何在行动之间分配总体
奖励
?Problem2:这个问题和Problem1是一样的,但是问题环境的
奖励
是动态的,所以我们到达细胞的方式会影响前面细胞的
奖励
。-8 9 2 40 11 e (DR
浏览 11
提问于2019-09-16
得票数 0
1
回答
使用VW向
奖励
分布
添加噪声
、
我想在我已有的
奖励
分布
中添加噪声。
奖励
分布
应该以什么形式表示,以便大众理解,以及大众可以使用哪些方法来诱导噪声?例如,您可以考虑给定的
奖励
分布
浏览 16
提问于2021-02-02
得票数 0
1
回答
监督
学习
与离线(批)
强化
学习
、
大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督
学习
和
强化
学习
之间关系的讨论。然而,它实际上是监督
学习
和在线
强化
学习
的比较,在这种情况下,agent在环境中运行(或模拟交互),以获得对底层动力学的有限知识的反馈。我对离线(批量)
强化
学习
更感兴趣,在这里,数据集(收集的
学习
经验)是先验的。与监督
学习
相比,有什么不同?他们可能有哪些相似之处?
浏览 4
提问于2021-08-14
得票数 0
回答已采纳
2
回答
Q-Learning和TD(λ)中的
奖励
这两种RL技术中的
奖励
是如何工作的?我的意思是,他们都改善了政策和评估,但没有
奖励
。我怎么才能从一开始就猜到呢?
浏览 0
提问于2012-01-10
得票数 1
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
、
、
深入的Q-
学习
,A3C,政策进化的遗传算法,他们都没有
学习
小行星,或至少表现比人类差得多。根据RL的说法,从最艰难的Atari游戏来看,大部分的焦点都集中在蒙特祖马的复仇上,这显然受到了很少的
奖励
。然而,我不认为这是小行星(视频)的情况,因为每一颗小行星的射击都会得到
奖励
。为什么DRL表现那么差?以下是一些报告小行星上的坏结果的论文(有些文章互相引用):深度
强化
学习
的大规模并行
学习
方法 基于双Q
学
浏览 0
提问于2018-02-16
得票数 3
回答已采纳
1
回答
制定
奖励
结构
、
、
、
、
我对
强化
学习
和训练
强化
学习
智能体的实验都很陌生。直觉上,我觉得这将有助于培训代理,但这种倾斜的
奖励
结构会有什么缺点吗?
浏览 11
提问于2019-11-26
得票数 0
1
回答
机器怎么知道哪一步能得到最大的
奖励
?
、
在我看来,
强化
学习
会从行动中得到回报。然而,在玩电子游戏时,大多数步骤(如:街头拳击手)都没有
奖励
(
奖励
== 0 ),最终,我们得到了
奖励
(例如:玩家赢了,
奖励
=1),有这么多动作,机器怎么知道哪一个是赢得这个游戏的关键?
浏览 0
提问于2019-05-07
得票数 2
回答已采纳
1
回答
逆
强化
学习
的实际应用是什么?
、
逆
强化
学习
是利用专家轨迹
学习
奖励
函数。目前最成功的方法是最大熵逆
强化
学习
。但在这一点上,你需要一个基于模型的
强化
学习
。但世界上大多数实际问题都是无模型的,很难计算出状态转移概率。那么,我们如何在现实问题中使用这种逆
强化
学习
呢?
浏览 0
提问于2018-04-02
得票数 3
回答已采纳
1
回答
学习
率将wrt衰减为累积
奖励
?
、
在深度
强化
学习
中,有没有办法将
学习
率wrt衰减为累积
奖励
?我的意思是,当智能体能够
学习
并最大化
奖励
时,衰减
学习
率?
浏览 18
提问于2020-06-18
得票数 0
1
回答
在RL中使用工程即时
奖励
会给代理带来非线性问题吗?
假设我们使用称为“S”的状态行为对和一个
奖励
函数R()操作,如下所示:R(S2) <- 0现在,考虑一下由一个人引入的即时
奖励
,以使代理人表现得更好:R(S2) <- -1 R(S3) <- -10是否存在这样的情况:为了使折扣
奖励
的总和最大化,代理可以选择避免具有强负报酬的状态,即使代价是在某些延迟状态下没有得到积极的
奖励
?(从-100到100)可能会分散代
浏览 0
提问于2018-02-07
得票数 1
回答已采纳
1
回答
是否有使用
强化
学习
进行多标签文本分类的例子?
、
、
我有一个有标签的数据集,我将为多标签分类问题(例如:5个标签)开发一个分类器。我已经开发了伯特和CNN,但我想知道我是否也可以使用RL进行文本分类。我正在寻找RL的python代码。
浏览 2
提问于2022-04-26
得票数 0
回答已采纳
2
回答
确定性策略梯度相对于随机策略梯度的优势是什么?
深度确定性策略梯度()是动作空间连续时
强化
学习
的最新方法。它的核心算法是。 然而,在阅读了论文和听了the talk ()之后,我仍然无法弄清楚确定性PG相对于随机PG的根本优势是什么。
浏览 64
提问于2017-03-13
得票数 12
1
回答
倒立摆:基于模型还是无模型?
例如:假设我正在对倒立摆应用Q
学习
,其中
奖励
是以摆向上位置之间的绝对距离给出的,而终端状态(或目标状态)被定义为当摆非常接近向上位置时。 这个设置是否意味着我有一个无模型的或基于模型的设置?根据我的理解,这将是基于模型的,因为我有一个环境的模型,它给了我
奖励
(R=abs(pos-wantedPos))。但是后来我看到了一个使用Q-learning ()的实现,这是一个无模型的算法。
浏览 1
提问于2018-05-02
得票数 1
1
回答
寻找用于序列生成的RL解决方案
我正在为下列问题寻找适当的
强化
学习
解决方案:当F(s') =真时,
奖励
+= 1每次序列增长一次,我就试着惩罚
奖励
我认为这是一个
学习
问题,并设想可以通过
强化
<
浏览 0
提问于2019-04-14
得票数 2
回答已采纳
2
回答
Q-
学习
价值过高
、
、
、
我最近尝试在Golang实现一个基本的Q-
学习
算法。请注意,我是新的
强化
学习
和人工智能在一般,所以错误很可能是我的。下面是我如何实现m,n,k-游戏环境的解决方案:在每个给定的时间( t ),代理保存最后一个状态动作(s, a)和获得的
奖励
;该代理根据Epsilon贪婪策略选择一个move a',并计算
奖励
r,然后继续更新时间reward参数表示当前步骤的状态操作(Qmax)的
奖励
。值得一提的是,使用一种简单的
学习
方法,我在python脚本中发现它工作得非常好
浏览 1
提问于2016-05-30
得票数 4
回答已采纳
1
回答
什么是后悔界限?
、
我唯一能找到的解释是在论文博士中:“后悔界限是在线
学习
算法分析的共同线索。后悔界限衡量在线算法相对于竞争预测机制的性能,称为竞争假设。”
浏览 0
提问于2019-10-23
得票数 2
1
回答
有没有可能使用神经网络/人工智能来“优化”比赛所需的时间?
、
、
、
、
该计划完成后,将旨在使用人工智能来获得最快的时间。汽车可以以恒定的速度加速、刹车或移动。在代码中会有一些部分(代表拐角),速度必须等于或低于某个特定的值(取决于拐角有多紧),我希望程序能够决定何时是加速、刹车和以恒定速度移动的最佳时刻。谢谢! if
浏览 3
提问于2020-07-23
得票数 1
1
回答
状态损失函数与在线回归
、
、
在tensorflow + keras中工作,我试图定义一个自定义的丢失函数。注:我更感兴趣的是损失的价值,而不是预测的实际价值(这将用于异常检测)。在t时,我收到一个输入,这是当前的观察(y_t),我有过去的x时间步骤的历史。我希望将y_t值与y_t的预测值在t-1,.t-n中的每个值进行比较。我遇到的困难是如何在批间保留这些预测数
浏览 0
提问于2019-05-29
得票数 3
1
回答
如何
奖励
RL中的行为?
、
、
、
、
我正在处理以下
强化
学习
问题:我有一瓶固定容量(比如说5升)。在瓶子的底部有水龙头来除去水。除水的
分布
不是固定的。我们可以从瓶子里取下任何数量的水,也就是任何之间的连续值。动作空间=离散空间
奖励
逻辑=如果由于行动而空瓶,则给予负面
奖励
;如果因行动而导致瓶满,则给予负面
奖励
。我是RL的新手。我不知道在什么情况下我必须给予
奖励
。我的
奖励
逻辑是正确的还是我必须改变它?
浏览 0
提问于2018-08-16
得票数 2
回答已采纳
1
回答
强化
学习
对荷兰拍卖有效吗?
我有以下关于
强化
学习
的想法:会计问题:
奖励
可能会延迟。可以为类似于荷兰拍卖的设置提供
强化
学习
吗?代理商的目标是以最高的价格出售该物品。
浏览 0
提问于2017-11-06
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
基于C#的机器学习-惩罚与奖励-强化学习
强化学习用好奇心解决稀疏奖励任务,人工智能处理强化学习
人工智能如何强化学习,奖励机制行得通吗?
实现AGI,强化学习就够了?Sutton:奖励机制足够实现各种目标
大脑也在用分布式强化学习?DeepMind新研究登上《Nature》
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券