腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1498)
视频
沙龙
1
回答
当可能发生多个操作时,
策略
梯度
是多少?
、
我试图编程一个
强化
学习
算法使用
策略
梯度
,灵感来自。卡帕的例子只有上下两个动作,所以一个输出神经元就足够了(高activation=UP,低activation=DOWN)。但是,我不确定输出层的
梯度
应该是多少。如果我在监督
学习
环境中使用具有softmax激活的交叉熵
损失
函数,神经元的
梯度
就是:其中target[i] = 1用于所需的操作,0用于所有其他操作。为了用于
强化
学习</
浏览 6
提问于2017-05-10
得票数 3
回答已采纳
1
回答
损失
策略
梯度
强化
学习
、
、
我正在使用
策略
梯度
训练我的网络,并将
损失
定义为: self.loss = -tf.reduce_mean(tf.log(OUTPUT_NN)* self.REWARDS)) self.opt = tf.train.AdamOptimizer(self.lr).minimize(self.loss) 我不明白的是,
损失
函数有时是正的,有时是负的。
浏览 51
提问于2019-07-03
得票数 0
1
回答
强化
学习
中
策略
梯度
下降的奖励函数
、
我目前正在
学习
强化
学习
中的
策略
梯度
下降。博士,我的问题是:“在理论和实践中,对报酬函数的限制是什么?对于下面的情况,什么是好的奖励函数?”。详细信息:我想实现一个神经网络,它应该学会使用
策略
梯度
下降来玩一个简单的棋盘游戏。我将省略神经网络的细节,因为它们并不重要。
策略
梯度
下降的
损失
函数,据我所知,它是负日志可能性:loss = - avg(r * log(p)) 我现在的问题是如何定义奖励r?这只会抵消方程中的任何概
浏览 1
提问于2018-06-29
得票数 2
1
回答
反向传播神经元网络
、
、
、
、
我想通过反向传播来实现
学习
,并对这两种方法进行比较。问题只存在于反向传播中。我读过一些关于它的文章,但我还不明白如何在这个例子中使用它。我可能只是不明白。
学习
过程在这里是简单而清晰的。在没有上司的情况下
学习
。我能做些什么来实现反向传播。
浏览 1
提问于2016-07-26
得票数 0
1
回答
政策
梯度
自定义
损失
功能不起作用
、
、
、
我正在实验我的
策略
梯度
强化
学习
算法,我想知道我是否可以使用类似于监督交叉熵的方法。因此,我不会使用现有的标签,而是为轨迹中的每一步生成一个标签。根据行动的价值,我会将随机
策略
(神经网络)输出转换为更有效的输出,并将其训练为交叉熵
损失
函数的标记。 动作示例:实际输出:0.2,0.8;值:-0.5;操作:1。
浏览 0
提问于2019-10-04
得票数 1
1
回答
在Keras中,我可以使用任意算法作为网络的
损失
函数吗?
、
、
、
、
我已经试着理解这个机器
学习
问题很多天了,它真的使我困惑,我需要一些帮助。 我试图训练一个神经网络,它的输入是图像,并生成另一个图像作为输出(它不是一个很大的图像,它是8x8像素)。我有一个任意的fancy_algorithm()“黑匣子”函数,它接收网络的输入和预测(两个图像),并输出一个浮点数,它告诉网络的输出有多好(计算
损失
)。我的问题是,我想训练这个神经网络,但使用黑匣子算法产生的
损失
。这个问题让我很困惑,我做了很多研究,但我没有发现很多,这似乎是
强化
学习
,但同时我不确定,因为它不像一个代理人,但它
浏览 2
提问于2020-05-06
得票数 0
回答已采纳
1
回答
理解
策略
梯度
定理--获取奖励wrt
策略
参数的
梯度
意味着什么?
、
、
我想要弄清楚政策
梯度
定理是什么意思。我的困惑在于
强化
学习
中的奖励R在政策参数中是不可微的。在这种情况下,
策略
梯度
的中心目标是如何找到奖励R的
梯度
--
策略
函数的参数--甚至是有意义的?
浏览 0
提问于2019-02-26
得票数 0
1
回答
对于
策略
梯度
,Pi和Pi Theta的区别是什么?
、
、
我正在
学习
强化
学习
策略
梯度
。我想这绝不意味着3.14。
浏览 1
提问于2022-04-05
得票数 -1
1
回答
连续动作空间(人形-v2)增强的实现?
、
、
、
、
我已经看到了用于具有离散动作空间的
强化
学习
任务的
强化
策略
算法的多个实现。是否有针对连续动作空间的算法(或其他
策略
梯度
算法)的实现?
浏览 1
提问于2018-04-13
得票数 2
1
回答
ValueError:没有为
策略
梯度
中的任何变量提供
梯度
、
、
、
、
我一直在尝试在
强化
学习
中实现
策略
梯度
算法。然而,在计算自定义
损失
函数的
梯度
时,我遇到错误“ValueError: No gradients provided for any variable:”,如下所示: loss = tf.multiply(log_prob, (-reward))我按如下方式计算
梯度
浏览 6
提问于2021-05-31
得票数 0
1
回答
谷歌的DeepMind是根据什么原则学会走路的?
、
、
、
、
是Q-
学习
还是遗传算法或
策略
梯度
?
浏览 0
提问于2021-03-29
得票数 3
回答已采纳
2
回答
确定性
策略
梯度
相对于随机
策略
梯度
的优势是什么?
深度确定性
策略
梯度
()是动作空间连续时
强化
学习
的最新方法。它的核心算法是。 然而,在阅读了论文和听了the talk ()之后,我仍然无法弄清楚确定性PG相对于随机PG的根本优势是什么。
浏览 64
提问于2017-03-13
得票数 12
1
回答
连续
强化
学习
优化
我正在实现连续
强化
学习
(用深度
强化
学习
的连续控制),但在优化
策略
-神经网络时遇到了一些问题。按照本文的建议,通过计算和跟踪
梯度
(
梯度
上升),使
策略
的q值最大化:最大Q(状态,action=policy(状态))。当行动->无限时,Q->无穷大,这意味着
策略
的权重被优化到非常大或无限大的值。我计划将
策略
的输出限制在0,1,而不是线性输出层,但这似乎严重阻碍了优化过程,而且算法无法再
学习
好的
浏览 1
提问于2017-04-29
得票数 2
1
回答
在PyTorch中,如何通过
损失
列表中的平均
梯度
更新神经网络?
、
、
、
我有一个玩具
强化
学习
项目,基于
强化
算法(这里的),我想添加批量更新。在RL中,只有在“预测”完成之后才能创建“目标”,因此标准的批处理技术不适用。因此,我为每一集累积
损失
,并将它们附加到一个列表l_losses中,其中每个项目都是一个零维张量。考虑到这个
损失
列表,如何让PyTorch根据其平均
梯度
更新网络?或者,基于平均
梯度
的更新是否与对平均
损失
的更新相同(我似乎在其他地方看到了其他情况)?l_losses)创建一个新的张量torch.stack(l_
浏览 17
提问于2022-09-24
得票数 3
回答已采纳
6
回答
梯度
下降和
梯度
上升的区别是什么?
、
、
我找不到任何关于
梯度
上升的东西。任何关于
梯度
上升的好链接,展示它与
梯度
下降的不同之处都会有所帮助。
浏览 1
提问于2014-03-24
得票数 23
2
回答
强化
学习
类似于随机
梯度
下降吗?
、
、
、
例如,如何 对于国家,行动和奖励的例子为RL?我理解
强化
学习
是指:(a)
学习
如何做,如何将情况描绘成行动;(b)从互动中
学习
,以及在这种情况下,从所有可能的行动/奖励中获得“有监督的培训”培训范例是不切实际的。
浏览 0
提问于2021-11-24
得票数 0
回答已采纳
1
回答
强化
学习
:分解
策略
梯度
、
我正在通过以下网站研究政策
梯度
:https://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3f 不知道第一个方程式是怎么变成第二个方程式的
浏览 0
提问于2019-12-10
得票数 3
1
回答
计算机可以通过分析他人的游戏来
学习
游戏的
策略
吗?
、
我想知道是否有任何
强化
学习
技术,可以
学习
如何玩一个游戏和一些
策略
,从它简单地分析由其他人玩,而不是自己玩它。
浏览 2
提问于2020-05-26
得票数 1
回答已采纳
1
回答
在深入
强化
学习
的背景下,批量大小的含义是什么?
、
批次大小是指在监督
学习
中接受神经工作训练的样本数,但是,在
强化
学习
的背景下,批次大小的意义是什么?它也是指样品吗?如果是的话,在
强化
学习
的背景下,样本的意义是什么?
浏览 0
提问于2019-04-02
得票数 3
回答已采纳
1
回答
训练回路中具有中间函数调用的tensorflow模型的训练
、
、
我的问题是,当我获取模型输出,然后调用模拟simulink调用并计算
损失
的函数时:intermediate_val我已经知道,如果我把模型的输出直接传递给
损失
函数,一切都很好。我的问题是,如何将模型的输出传递给另一个函数并使用返回的值计算
损失
?
浏览 7
提问于2022-09-28
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
强化学习之策略梯度讲解
强化学习中的多目标优化策略研究
对比梯度下降与进化策略,神经进化会成为深度学习的未来吗?
谷歌AI提出双重策略强化学习框架,帮助机器人安全学习动作技能
机器学习——多元梯度下降
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券