与vanilla DQN相比，双DQN的性能较差

。

首先，让我们了解一下DQN（Deep Q-Network）是什么。DQN是一种基于深度学习的强化学习算法，用于解决马尔可夫决策过程（MDP）中的问题。它结合了深度神经网络和Q-learning算法，能够学习到一个值函数来指导智能体在环境中做出决策。

在传统的vanilla DQN中，使用一个单独的神经网络来估计每个状态下的动作值函数（Q值函数）。然后，智能体根据这些估计的Q值选择最优的动作来更新策略。然而，vanilla DQN存在一个问题，即对于估计的Q值函数可能会过高估计某些动作的价值，导致学习不稳定和性能下降。

为了解决这个问题，双DQN提出了一种改进方法。双DQN使用两个独立的神经网络，一个用于选择最优动作，另一个用于评估该动作的价值。具体而言，一个网络（称为行动者网络）用于选择最优动作，而另一个网络（称为目标网络）用于评估该动作的价值。通过这种方式，双DQN可以减少对于某些动作的过高估计，提高学习的稳定性。

然而，尽管双DQN在一些场景下表现良好，但在某些情况下，它的性能可能较差。这是因为双DQN仍然存在一些问题。例如，双DQN可能会出现过度估计和低估计的问题，导致学习不稳定。此外，双DQN对于环境中的非确定性因素的处理可能不够理想。

总的来说，双DQN是对传统的vanilla DQN的改进，旨在解决过高估计的问题。然而，它仍然存在一些局限性，可能导致性能较差。在实际应用中，选择使用哪种算法取决于具体的问题和环境。

腾讯云提供了一系列与强化学习相关的产品和服务，例如强化学习平台、深度学习平台、GPU云服务器等。您可以通过腾讯云官方网站（https://cloud.tencent.com/）了解更多相关信息。

与vanilla DQN相比，双DQN的性能较差

、、

我现在正在尝试优化我的机器人的导航。我首先使用了一个普通的DQN，在那里我优化了参数。模拟机器人在5000集后达到了8000个目标，并表现出令人满意的学习性能。现在，由于DQN在强化学习中“不是最好的”，我添加了DoubleDQN。不幸的是，这一个在同样的条件下表现得非常糟糕。但我不知道目标是如何一直能够禁止高估原始网络的行为的？以下是正常的DQN</em

浏览 24提问于2019-11-01得票数 0

1回答

如果DQN测试的奖励低于DQN最小化问题训练的奖励，是否可以接受？

、、

如果我们训练一个DQN超过40000-60000集的500个时间步调。在过去的100步训练中，在测试过程中，奖励的平均值约为奖励的1.1倍。越多的时间步骤应该更稳定？？时间步数的作用是什么？例如，在最后100次的训练中，奖励的平均值是6.1，但是在测试期间的答案是5.2 (我的问题是最小化)。我们的DQN还好吗？一个测试随机数

浏览 0提问于2018-10-14得票数 0

2回答

我想我不明白DQN和DDQN在实现上有什么区别。我知道在DDQN运行期间我们改变了traget网络，但我不明白在这段代码中是如何实现的。我们将self.target_model.set_weights(self.model.get_weights())放在DDQN的实现中，这是在DQN的操作完成后添加的，https://github.com/keon/deep-q-learning将self.target_model.set_weights(sel

浏览 0提问于2018-09-22得票数 10

1回答

DQN是如何解决开放AI Cartpole-v0的？

、、、

与教程不同，我将状态空间表示转换为1x4返回的状态，而不是图像。此外，我将操作输出转换为一个被绑定的输出。因此，当绑定设置为3时，动作1x2变为3x2。因此，我得到的不是最大动作行方向，而是最大操作列方向。我正在使用固定目标(训练一个主要和目标DQN)。问题/关切我与env的主要问题是，保持杆垂直与DQN没有什么不同，因为它将杆保持在接近失效的位置。如果得到+1的奖励，DQN</

浏览 0提问于2019-04-28得票数 0

回答已采纳

1回答

决斗DQN* -为什么我们应该分解，然后将它们组合成？*

在我看来，V是指代理人遵循当前政策时的总报酬；Q是指如果我们给出具体的行动，然后遵循当前的政策，那么总报酬是什么；如果我们得到了最优策略，V将等于q；所以我们应该学会使A达到零；就像答案：-无法理解其机制决斗DQN 但在那篇论文中，如果我们不能确定给定Q，我们不能恢复V和A的唯一性，我就不明白这是怎么回事。

浏览 0提问于2018-09-07得票数 2

2回答

Keras with Tensorflow后端-在CPU上运行预测，但适合在GPU上运行

、、、

我正在使用keras-rl使用D-DQN算法训练我的网络。我正在使用model.fit_generator()函数在GPU上运行我的训练，以允许在GPU进行backprops时将数据发送到GPU。我怀疑与GPU处理数据的速度相比，数据的生成速度太慢了。在生成数据时，正如D-DQN算法所指示的那样，我必须首先使用我的模型预测Q值，然后使用这些值进行反向传播。如果GPU被用来运行这些预测，这意味着它们正在破坏我

浏览 5提问于2018-07-25得票数 5

1回答

关于二维迷宫中Q学习的几个问题

、、、

我刚读到关于Q学习的文章，我不确定我是否正确地理解了这一点。我看到的所有例子都是迷宫老鼠，老鼠必须向奶酪移动，而奶酪不能移动。我只是在想，在鼠标和奶酪都移动的情况下，是否有可能进行Q学习(因此，一个代理在追赶，另一个在逃跑)。非常感谢!

浏览 2提问于2019-12-07得票数 2

2回答

如何在RL中获取q值

、、、

我不知道如何获得DDQN的Q值。 dqn_next = self.DQN.predict(n_states) # DQN batch predict Q on next_states tar_next = self.TAR.predict(n_states) # TAR batch

浏览 6提问于2019-12-22得票数 1

回答已采纳

1回答

DoubleDQN与DQN的性能比较

、

我在健身房NChain游戏上尝试了DoubleDQN和DQN算法，发现DoubleDQN的性能并不比DQN更稳定或更好。我将每次操作后训练的批量大小设置为1，我可以知道这是DoubleDQN没有优于DQN的原因吗？

浏览 5提问于2019-07-05得票数 0

1回答

在DQN自然纸上？

、、、

在DeepMind的自然文献中，DQN与线性函数进行了比较，但是他们并没有说这个线性函数是什么？它们和一些线性函数相比？0-在DQN自然文件中，“每250,000名参与者接受135,000个验证框架的评估”这句话的含义是什么？2-这句话的意思是：“请注意，这些评估事件在5分钟内没有被截断，导致Enduro评分更高”。在5个验证游戏中

浏览 0提问于2018-10-02得票数 2

1回答

Python中带有Tensorflow的Cart极的深度Q-学习

、、、

我正在尝试实现经典的深度Q学习算法来解决openAI健身房的Cart极游戏：令人惊讶的是，该代理成功地在许多集中达到了200步(这是最大的)，只需在每集中生成4个随机的均匀权重w1、w2、w3、w4 (-1.0到1.0)。因此，我决定实现一个简单的DQN，只有4个权重和2个偏见，并让代理学习这个游戏的时间。权值将在开始时随机初始化，并在代理执行步骤时使用反向传播来更新它们

浏览 4提问于2020-08-09得票数 0

回答已采纳

1回答

rllib DQN实现中的Atari评分与奖励

、、、、

我试着用RLLib复制突破的DQN分数。5米台阶后，平均奖励为2.0，而使用DQN的已知突破得分为100+。我想知道这是否是因为奖励剪辑，因此实际奖励不符合Atari的分数。RLLib的情况也是这样吗？在训练过程中有什么方法可以看到实际的平均分数吗？

浏览 10提问于2019-11-03得票数 2

2回答

Q-训练DQN时的值爆炸

、、、、

我正在训练一个DQN来玩OpenAI的Atari环境，但是我的网络的Q值迅速爆炸，远远超出了现实的范围。下面是代码的相关部分： if not done:self.target_model.fit(state, target_f, epochs=1, verbose=0) 折扣系数为0.99 (它不会发生在贴现率0.9，但也不会收敛，因为它不能考虑到足够<em

浏览 2提问于2018-02-21得票数 9

回答已采纳

1回答

为什么流密码在软件中可能比块密码慢

、、

我使用基于StrongSwan的虚拟环境(虚拟盒)进行了一些测试。我使用ping命令获得了延迟结果，表明Chacha20 (流密码)与AES和BLowfish (块密码)相比性能较差。

浏览 0提问于2019-06-29得票数 0

1回答

深度RL:再培训应该多久进行一次？

我也猜没有具体的数字(例如在1000次行动之后还是在一周之后)，那么哪一个标准最有帮助？

浏览 0提问于2022-01-25得票数 0

1回答

与textFile()相比，Spark binaryRecords()提供的性能较差

这与集群上的以下配置一起工作得很好。responseSet.write() .save(path + "processed"); 然而，如果我想读取二进制文件(与文本大小相同)，它需要更多的时间。driver-memory 8gnum-executors 16 150 MB文件的第一个代码花费的时间是1.30分钟。使用150 MB文件的</

浏览 51提问于2019-01-17得票数 0

回答已采纳

4回答

与无索引相比，索引的查询性能较差。

、、、

我使用的是MySQL 5.6，并有一个按日期类型的'network_date‘列进行分区的表(每天都有一个分区，例如'2018-05-01'，每个分区包含大约40万行)。该表有两个复合索引(不是唯一的)，也包括'network_date‘列(第一个是6列)。您可以在这里看到结果：在做了一些研究和困惑之后，我决定从索引中删除'network_date‘列--分区剪枝无论如何都应该进行必要的查找，因此将其包含在索引中似乎是多余的。您可以在这

浏览 0提问于2018-05-15得票数 0

1回答

将PyTorch转换为ONNX模型会增加ALBert的文件大小

、、、、

第1.2和2.2节中的输出显示： PyTorch和ONNX模型的尺寸是不同的。我认为这是模型性能较差的原因，与香草ALBert相比，ALBert的两种量化ALBert方法的</e

浏览 35提问于2022-01-20得票数 0

回答已采纳

1回答

使用Docker和Vanilla* LXC的优缺点是什么？*

、、

我主要是一个使用BTRFS运行Vanilla LXC的LXC人员，我想知道用Docker替换它的优点和缺点是什么(我知道Docker有版本控制、共享容器等特性)？这是应用程序部署的易用性与性能的问题吗？BTRFS与Dockers AUFS相比如何？如果有人对文件系统/IO性能或基准测试有什么要分享的，我将非常高兴。谢谢。

浏览 2提问于2014-09-23得票数 0

5回答

保证密钥唯一时的HashMap性能

、、、

如果我希望使用的键被保证是唯一的(或者至少可以假设键是唯一的)，那么使用'vanilla‘是否提供最佳性能，或者是否需要修改散列函数或put方法以避免不必要的散列？另外，与非数字键相比，数字键是否具有性能优势(例如具有适当散列函数的字符串或POJO )？

浏览 1提问于2011-07-12得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

与vanilla DQN相比，双DQN的性能较差

相关·内容

与vanilla DQN相比，双DQN的性能较差

如果DQN测试的奖励低于DQN最小化问题训练的奖励，是否可以接受？

DDQN和DQN有什么区别？

DQN是如何解决开放AI Cartpole-v0的？

决斗DQN* -为什么我们应该分解，然后将它们组合成？*

Keras with Tensorflow后端-在CPU上运行预测，但适合在GPU上运行

关于二维迷宫中Q学习的几个问题

如何在RL中获取q值

DoubleDQN与DQN的性能比较

在DQN自然纸上？

Python中带有Tensorflow的Cart极的深度Q-学习

rllib DQN实现中的Atari评分与奖励

Q-训练DQN时的值爆炸

为什么流密码在软件中可能比块密码慢

深度RL:再培训应该多久进行一次？

与textFile()相比，Spark binaryRecords()提供的性能较差

与无索引相比，索引的查询性能较差。

将PyTorch转换为ONNX模型会增加ALBert的文件大小

使用Docker和Vanilla* LXC的优缺点是什么？*

保证密钥唯一时的HashMap性能

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐