腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么增强
算法
在用不均匀概率初始化时会收敛?
、
、
、
在以下情况下,为什么增强
算法
(或任何其他简单的策略梯度
算法
)收敛到采取
行动
b的
最优
解,即使采取
行动
a的起始概率要高得多?Start in S0采取
行动
b->奖励10 “”第一集结束,在州s0中重新开始
浏览 3
提问于2020-12-14
得票数 0
回答已采纳
1
回答
MDP中的随机状态转换:Q-学习是如何估计的?
、
、
我正在向网格世界实施Q-学习,以找到
最优
的策略。困扰我的一件事是,状态转换是随机的。例如,如果我处于状态(3,2)并采取‘北方’
行动
,我将以0.8的概率降落在(3,1),以0.1的概率降至(2,2),以0.1的概率降至(4,2)。如何在
算法
中加入这些信息?对于该
算法
如何在训练过程中自动找到这些过渡概率,我并不信服。如果有人能把事情弄清楚,我会很感激的。
浏览 1
提问于2016-08-31
得票数 4
1
回答
tf-代理的“政策”和“`collect_policy`”有什么区别?
、
、
、
、
我正在看来学习强化学习。我正在跟踪这个。有一种不同的策略,称为collect_policy用于培训,而不是用于评估(policy)。agent.policy -用于评估和部署的主要策略。 collect_policy:表示代理当前数据收集策略的tf_policy.Base的一个实例(用于设置self.step_spec)
浏览 0
提问于2020-04-24
得票数 5
3
回答
Q-learning和SARSA与贪婪
选择
是等价的吗?
、
、
如果使用贪婪
选择
策略,也就是说,动作值最高的动作被100%
选择
,那么SARSA和Q-learning是否相同?
浏览 7
提问于2015-09-29
得票数 9
回答已采纳
2
回答
强化学习、ϵ-贪婪方法与
最优
行为
在强化学习中,为什么我们应该按照ϵ-贪婪的方法
选择
行动
,而不是总是
选择
最优
的
行动
?
浏览 1
提问于2018-04-22
得票数 0
回答已采纳
2
回答
最优
选择
算法
、
最近我们讨论了用于
算法
优化的动态规划,现在我们将实现一个使用动态规划的
算法
。因此,我们有一个简单的游戏,我们将编写一个
算法
,以找到最佳可能的策略,以获得最佳的可能得分(假设双方的游戏优化)。在第一个任务中,我们应该简单地实现“一种简单的递归解决这个问题的方法”,其中我只使用了一个很适合自动化测试的极小极大
算法
。然而,在第二个任务中,我陷入了困境,因为我们现在将使用动态编程技术。从这个表中,我至少可以读到上面提到的3 -> 4 -> 7 -> 2 (-1 + 5)的
最优
策略,所以我
浏览 0
提问于2019-06-04
得票数 1
回答已采纳
1
回答
为什么Q-learning在未知的环境中工作?
、
、
Q-learning使用即时奖励矩阵R对环境进行建模。这意味着它使用一个已知的矩阵R进行学习,那么为什么人们说"Q-learning可以在未知的环境中工作“?
浏览 0
提问于2016-10-31
得票数 1
2
回答
TSP
最优
巡游
、
、
、
我写了一个细菌进化
算法
来解决TSP问题。我
选择
XQF131实例()来测试我的
算法
。这个问题是用协和
算法
解决的,
最优
路径是564。但我计算了显示的
最优
线路长度,它是567,2029。()使用我的
算法
,我找到了更好的解决方案566,4142。我的问题是:协和
算法
是如何工作的?它计算
最优
解或近似值? 谢谢你的回答!
浏览 2
提问于2015-04-28
得票数 4
1
回答
关于背包的问题?
、
日安, 背包
算法
在我的脑海中并不完全是“点击”。我知道如何回答不同种类(0-1背包,带香料背包等)的背包问题,但我并不完全理解
算法
本身,我很想填补这个空白。从点0 {0,0,...0}出发,计算相邻节点,然后根据得到的结果,得到矩阵中的下一个对角线点,得到
最优
解。重复,直到
算法
中所有考虑的选项都被删除为止。,我们如何知道背包
算法
的工作原理(除了经验观察)?特别是,我们如何确切地知道没有可选配置被认为是s.t。使用“X维矩阵”的在内存使用上看起来非常冗余,对于背包问题是否有更优化的数据结构?
浏览 1
提问于2019-10-25
得票数 0
回答已采纳
1
回答
统一成本搜索
算法
最坏的时间和空间复杂度是什么?
、
我在这里的书(人工智能一种现代方法)说,统一成本搜索
算法
最糟糕的时间和空间复杂性是O(bC*/ e ),其中b是分支因子,C*是
最优
解的成本,而每一个
行动
都至少要花费e。但是为什么会这样呢?
浏览 1
提问于2012-08-15
得票数 4
回答已采纳
4
回答
当局部
最优
解等于全局
最优
解时?关于贪心
算法
的思考
、
、
最近我一直在研究一些贪婪的
算法
问题。我对局部
最优
感到困惑。如你所知,贪婪
算法
是由局部
最优
选择
组成的。但是组合局部
最优
决策并不一定意味着全局
最优
,对吧?但如果我们添加一个12美分的硬币,贪婪
算法
就会失败,因为(1×12+3×1)使用的硬币比(1×10+1×5)多。 考虑一些经典的贪婪
算法
,例如Huffman,Dijkstra。在我看来,这些
算法
是成功的,因为它们没有退化的情况,这意味着局部
最优
步骤的组
浏览 5
提问于2011-06-29
得票数 9
回答已采纳
1
回答
多项
选择
背包
、
因此,标准的多项
选择
背包问题允许从每个类中
选择
一项来创建
最优
背包。然而,我该如何修改这个
算法
以允许
选择
0或1项呢?也就是说,不需要从每个类别中
选择
一个项目来获得
最优
解,但最多只能从一个类别中
选择
一个项目。这只是同样的
算法
,不允许从一个类中
选择
任何项目吗? 谢谢
浏览 0
提问于2011-10-07
得票数 2
回答已采纳
1
回答
稀疏代理的强化学习
、
我正在研究一个问题,在这个问题上,
最优
策略大多数时候涉及到代理“什么都不做”,而在罕见的关键时刻“做一些事情”。在解决这样的问题时,是否有任何文献或最佳实践,而这些问题的
行动
是非常罕见的?我试着改变随机的
行动
选择
,
选择
不作为而不是
行动
,有一定的概率使代理人偏袒什么都不做,但这并没有真正影响学习。我认为问题的一部分是,代理只有在他
行动
时才会收到回报反馈,这使得学习
最优
稀疏
行动
策略相当困难。我一直试图避免奖励黑客(代理频繁
行动</
浏览 0
提问于2019-12-30
得票数 5
2
回答
归纳法证明背包递推返回
最优
解
、
、
我必须通过归纳法来证明产生背包问题的
最优
解
浏览 16
提问于2019-07-09
得票数 0
2
回答
路径图的最大权无关集问题
、
、
a[i] = max(a[i - 1], a[i - 2] + w[i]) 如果一个顶点被排除在两个连续子问题的
最优
解之外,那么它就被排除在所有较大子问题的
最优
解之外。如果一个顶点被排除在子问题的
最优
解之外,那么它就被排除在所有较大子问题的
最优
解之外
浏览 1
提问于2018-12-25
得票数 2
回答已采纳
1
回答
二部图的
最优
边着色
、
、
我遇到了以下问题:在二分图中找到
最优
边着色。我知道贪婪着色
算法
有时不能返回
最优
的颜色数。“贪婪着色
算法
”的意思是:首先
选择
度最高的顶点,然后在颜色1...degree上对其边缘进行着色,然后
选择
具有<=度的顶点,再将其在第一个可用数(邻域不使用的最低数目)上的每个入射边着色,
选择
下一个顶点等但我引入了一个修改:第一
选择
顶点I颜色的边按降序(度.1)排列,以及下一个顶点的边,就像以前在1...degree上那样。这次修改的结果是我举了一些例子,我得
浏览 1
提问于2016-06-27
得票数 1
回答已采纳
1
回答
在多目标条件下,如何生成
最优
指标组合?
、
opengauss文档中AI模块的索引建议支持在索引空间的限制范围内引入
最优
索引组合。然而,指数推荐代码似乎只使用爬山方法。爬山法是一种贪婪的
算法
.每一次,它只
选择
一个最大的当前利润和收敛和本地解决方案。然而,在指标返回和空间组合这两个目标的约束下,
算法
是否无法找到
最优
解?在这种情况下,如何计算
最优
解?
浏览 10
提问于2022-02-11
得票数 -1
2
回答
强化学习:我是否必须忽略超参数(?)在Q学习中完成训练后?
、
在这一阶段,Q表将被更新为伽马(折现率),学习率(Alpha),
行动
将
选择
随机
行动
率。 过了一段时间后,当报酬稳定下来时,让我称之为“训练结束”。
浏览 9
提问于2017-04-25
得票数 0
回答已采纳
2
回答
寻找元素与最大总参数值的最佳组合
、
我想为每个特性
选择
2个元素,这样我一共
选择
了8个不同的元素。我要最大化这8个特征A,A,B,B,C,C,D,D的和。贪婪的
算法
是
选择
A最高的两个元素,然后在其余元素中
选择
B最高的两个元素,但是这可能不是
最优
的,因为具有最高A的元素也有更高的B。 我们有
算法
来
最优
地解决这个问题吗?
浏览 10
提问于2022-02-21
得票数 1
1
回答
仅对数据进行策略梯度,不使用仿真器
、
、
、
、
对我的团队来说,模仿代理(执行操作和评估奖励)成本太高了,这意味着我们唯一的
选择
就是在数据集上学习
最优
策略。好的是我们有大量的数据,这代表了一系列的状态,
行动
,奖励。我们还需要持续的
行动
,因为这套
行动
是很大的。因此,策略梯度是可行的,但它通常使用需要仿真器的参与者-评论家。我们不能效法,其他的
选择
是什么?
浏览 0
提问于2018-04-13
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习中的最优化算法总结
数据中心柔性配电最优选择
多元线性回归之最优模型选择 by R 语言
走近流行强化学习算法:最优Q-Learning
算法的选择
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券