奖励分布强化学习

挑战在于，我们不知道每个细胞的奖励是什么，但当我们通过并完成一条路径时，我们将获得总体奖励。例如:一个解决方案可以是RRDDRDR，总体奖励是16。S 3 5 1 5 1 2 4 5 1 7 3 1 2 8 9 2 1 1 e 目标是从头到尾找到一组动作，使获得的总体奖励最大化。我们如何在行动之间分配总体奖励？Problem2:这个问题和Problem1是一样的，但是问题环境的奖励是动态的，所以我们到达细胞的方式会影响前面细胞的奖励。-8 9 2 40 11 e (DR

浏览 11提问于2019-09-16得票数 0

1回答

使用VW向奖励分布添加噪声

、

我想在我已有的奖励分布中添加噪声。奖励分布应该以什么形式表示，以便大众理解，以及大众可以使用哪些方法来诱导噪声？例如，您可以考虑给定的奖励分布

浏览 16提问于2021-02-02得票数 0

1回答

监督学习与离线(批)强化学习

、

大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督学习和强化学习之间关系的讨论。然而，它实际上是监督学习和在线强化学习的比较，在这种情况下，agent在环境中运行(或模拟交互)，以获得对底层动力学的有限知识的反馈。我对离线(批量)强化学习更感兴趣，在这里，数据集(收集的学习经验)是先验的。与监督学习相比，有什么不同？他们可能有哪些相似之处？

浏览 4提问于2021-08-14得票数 0

回答已采纳

2回答

Q-Learning和TD(λ)中的奖励

这两种RL技术中的奖励是如何工作的？我的意思是，他们都改善了政策和评估，但没有奖励。我怎么才能从一开始就猜到呢？

浏览 0提问于2012-01-10得票数 1

1回答

为什么深层强化学习不能学会如何玩小行星？

、、

深入的Q-学习，A3C，政策进化的遗传算法，他们都没有学习小行星，或至少表现比人类差得多。根据RL的说法，从最艰难的Atari游戏来看，大部分的焦点都集中在蒙特祖马的复仇上，这显然受到了很少的奖励。然而，我不认为这是小行星(视频)的情况，因为每一颗小行星的射击都会得到奖励。为什么DRL表现那么差？以下是一些报告小行星上的坏结果的论文(有些文章互相引用)：深度强化学习的大规模并行学习方法基于双Q学

浏览 0提问于2018-02-16得票数 3

回答已采纳

1回答

制定奖励结构

、、、、

我对强化学习和训练强化学习智能体的实验都很陌生。直觉上，我觉得这将有助于培训代理，但这种倾斜的奖励结构会有什么缺点吗？

浏览 11提问于2019-11-26得票数 0

1回答

机器怎么知道哪一步能得到最大的奖励？

、

在我看来，强化学习会从行动中得到回报。然而，在玩电子游戏时，大多数步骤(如:街头拳击手)都没有奖励(奖励== 0 )，最终，我们得到了奖励(例如:玩家赢了，奖励=1)，有这么多动作，机器怎么知道哪一个是赢得这个游戏的关键？

浏览 0提问于2019-05-07得票数 2

回答已采纳

1回答

逆强化学习的实际应用是什么？

、

逆强化学习是利用专家轨迹学习奖励函数。目前最成功的方法是最大熵逆强化学习。但在这一点上，你需要一个基于模型的强化学习。但世界上大多数实际问题都是无模型的，很难计算出状态转移概率。那么，我们如何在现实问题中使用这种逆强化学习呢？

浏览 0提问于2018-04-02得票数 3

回答已采纳

1回答

学习率将wrt衰减为累积奖励？

、

在深度强化学习中，有没有办法将学习率wrt衰减为累积奖励？我的意思是，当智能体能够学习并最大化奖励时，衰减学习率？

浏览 18提问于2020-06-18得票数 0

1回答

在RL中使用工程即时奖励会给代理带来非线性问题吗？

假设我们使用称为“S”的状态行为对和一个奖励函数R()操作，如下所示：R(S2) <- 0现在，考虑一下由一个人引入的即时奖励，以使代理人表现得更好：R(S2) <- -1 R(S3) <- -10是否存在这样的情况:为了使折扣奖励的总和最大化，代理可以选择避免具有强负报酬的状态，即使代价是在某些延迟状态下没有得到积极的奖励？(从-100到100)可能会分散代

浏览 0提问于2018-02-07得票数 1

回答已采纳

1回答

是否有使用强化学习进行多标签文本分类的例子？

、、

我有一个有标签的数据集，我将为多标签分类问题(例如:5个标签)开发一个分类器。我已经开发了伯特和CNN，但我想知道我是否也可以使用RL进行文本分类。我正在寻找RL的python代码。

浏览 2提问于2022-04-26得票数 0

回答已采纳

2回答

确定性策略梯度相对于随机策略梯度的优势是什么？

深度确定性策略梯度()是动作空间连续时强化学习的最新方法。它的核心算法是。然而，在阅读了论文和听了the talk ()之后，我仍然无法弄清楚确定性PG相对于随机PG的根本优势是什么。

浏览 64提问于2017-03-13得票数 12

1回答

倒立摆:基于模型还是无模型？

例如:假设我正在对倒立摆应用Q学习，其中奖励是以摆向上位置之间的绝对距离给出的，而终端状态(或目标状态)被定义为当摆非常接近向上位置时。这个设置是否意味着我有一个无模型的或基于模型的设置？根据我的理解，这将是基于模型的，因为我有一个环境的模型，它给了我奖励(R=abs(pos-wantedPos))。但是后来我看到了一个使用Q-learning ()的实现，这是一个无模型的算法。

浏览 1提问于2018-05-02得票数 1

1回答

寻找用于序列生成的RL解决方案

我正在为下列问题寻找适当的强化学习解决方案：当F(s') =真时，奖励+= 1每次序列增长一次，我就试着惩罚奖励我认为这是一个学习问题，并设想可以通过强化<

浏览 0提问于2019-04-14得票数 2

回答已采纳

2回答

Q-学习价值过高

、、、

我最近尝试在Golang实现一个基本的Q-学习算法。请注意，我是新的强化学习和人工智能在一般，所以错误很可能是我的。下面是我如何实现m，n，k-游戏环境的解决方案:在每个给定的时间( t )，代理保存最后一个状态动作(s, a)和获得的奖励；该代理根据Epsilon贪婪策略选择一个move a'，并计算奖励r，然后继续更新时间reward参数表示当前步骤的状态操作(Qmax)的奖励。值得一提的是，使用一种简单的学习方法，我在python脚本中发现它工作得非常好

浏览 1提问于2016-05-30得票数 4

回答已采纳

1回答

什么是后悔界限？

、

我唯一能找到的解释是在论文博士中：“后悔界限是在线学习算法分析的共同线索。后悔界限衡量在线算法相对于竞争预测机制的性能，称为竞争假设。”

浏览 0提问于2019-10-23得票数 2

1回答

有没有可能使用神经网络/人工智能来“优化”比赛所需的时间？

、、、、

该计划完成后，将旨在使用人工智能来获得最快的时间。汽车可以以恒定的速度加速、刹车或移动。在代码中会有一些部分(代表拐角)，速度必须等于或低于某个特定的值(取决于拐角有多紧)，我希望程序能够决定何时是加速、刹车和以恒定速度移动的最佳时刻。谢谢！ if

浏览 3提问于2020-07-23得票数 1

1回答

状态损失函数与在线回归

、、

在tensorflow + keras中工作，我试图定义一个自定义的丢失函数。注:我更感兴趣的是损失的价值，而不是预测的实际价值(这将用于异常检测)。在t时，我收到一个输入，这是当前的观察(y_t)，我有过去的x时间步骤的历史。我希望将y_t值与y_t的预测值在t-1，.t-n中的每个值进行比较。我遇到的困难是如何在批间保留这些预测数

浏览 0提问于2019-05-29得票数 3

1回答

如何奖励RL中的行为？

、、、、

我正在处理以下强化学习问题:我有一瓶固定容量(比如说5升)。在瓶子的底部有水龙头来除去水。除水的分布不是固定的。我们可以从瓶子里取下任何数量的水，也就是任何之间的连续值。动作空间=离散空间奖励逻辑=如果由于行动而空瓶，则给予负面奖励；如果因行动而导致瓶满，则给予负面奖励。我是RL的新手。我不知道在什么情况下我必须给予奖励。我的奖励逻辑是正确的还是我必须改变它？

浏览 0提问于2018-08-16得票数 2

回答已采纳

1回答

强化学习对荷兰拍卖有效吗？

我有以下关于强化学习的想法：会计问题:奖励可能会延迟。可以为类似于荷兰拍卖的设置提供强化学习吗？代理商的目标是以最高的价格出售该物品。

浏览 0提问于2017-11-06得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用VW向奖励分布添加噪声

监督学习与离线(批)强化学习

Q-Learning和TD(λ)中的奖励

为什么深层强化学习不能学会如何玩小行星？

制定奖励结构

机器怎么知道哪一步能得到最大的奖励？

逆强化学习的实际应用是什么？

学习率将wrt衰减为累积奖励？

在RL中使用工程即时奖励会给代理带来非线性问题吗？

是否有使用强化学习进行多标签文本分类的例子？

确定性策略梯度相对于随机策略梯度的优势是什么？

倒立摆:基于模型还是无模型？

寻找用于序列生成的RL解决方案

Q-学习价值过高

什么是后悔界限？

有没有可能使用神经网络/人工智能来“优化”比赛所需的时间？

状态损失函数与在线回归

如何奖励RL中的行为？

强化学习对荷兰拍卖有效吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐