腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
与
Q
学习
的
定义
混淆
、
、
在读了一些教程之后,我仍然不确定任何一集
的
定义
。情节是否
定义
为从开始状态到退出/目标状态
的
一次遍历?
浏览 1
提问于2018-02-23
得票数 1
回答已采纳
1
回答
Q
学习
的
收敛时间
与
深度
Q
学习
、
、
我想知道深度
Q
学习
与
Q
学习
在同一问题上运行时
的
收敛时间。谁能告诉我他们之间
的
模式是什么?如果用图表来解释会更好。
浏览 3
提问于2021-04-26
得票数 0
1
回答
批量
Q
学习
与
成长批量
Q
学习
的
区别
、
我对批量
学习
和成长
的
批量
Q
学习
之间
的
区别感到困惑。此外,如果我只有历史数据,我能实现成长批量
Q
学习
吗? 谢谢!
浏览 2
提问于2015-09-28
得票数 3
回答已采纳
1
回答
Q
与
猫鼬
混淆
、
、
、
我正在对一些猫鼬文档进行一些稍微复杂
的
后处理,最后我添加了
q
来帮助管理异步。我可以让事情正常工作,但我有点困惑于下面发生了什么,如果我使用一个函数来返回
Q
.nfcall返回
的
承诺,而不是仅仅使用返回承诺本身
的
Q
.nfcall,那么为什么我会有不同
的
行为。我描述
的
场景在代码中可能更清楚:return
Q
.all([
Q</em
浏览 3
提问于2014-04-18
得票数 0
回答已采纳
1
回答
Q
学习
的
探索
与
开发
、
在
Q
-
学习
算法中,行为
的
选择取决于当前状态和
Q
-矩阵
的
值。我想知道这些
q
值是只在勘探阶段更新,还是在开发阶段也会发生变化。
浏览 4
提问于2017-01-04
得票数 0
回答已采纳
1
回答
(Re)在qutebrowser中
定义
命令
Qutebrowser有一个命令:close关闭当前窗口,命令:quit (可以缩短为:
q
)退出Qutebrowser,从而关闭所有窗口。由于我习惯于使用vim和vim
的
选项卡,所以我经常输入:
q
,意外地将其
与
:close
混淆
,从而使所有窗口同时关闭。我想要做
的
是让:
q
以:close
的
形式运行,或者
定义
一个作为实际:quit命令
的
:qa命令。 有可能这样做吗?
浏览 1
提问于2018-06-24
得票数 1
回答已采纳
1
回答
函数逼近
与
Q
-
学习
、
我试图用一个动作值近似函数来实现
Q
-
学习
.我正在使用openai-健身房和"MountainCar-v0“环境来测试我
的
算法。我
的
问题是,它根本没有收敛或找到目标。基本上,近似器
的
工作方式如下所示:位置和速度,以及一个热编码
的
三个动作之一:0 -> 1, 0,0,1 -> 0,1,0和2 -> 0,0,1,1。输出是一个特定动作
的
动作值近似
Q
_approx(s,a)。 我知道,通常输入是状态(两个特性),输出层包含每个动作<
浏览 2
提问于2017-08-25
得票数 0
回答已采纳
1
回答
深度
学习
与
混淆
矩阵
、
我用角码训练我
的
模型进行二值分类。我在ImageNet上使用了Resnet预器,我获得了95%
的
精度。在我
的
数据集中,我有9004张用于训练
的
图像分为两类,2250张用于测试
的
图像被分成两类。但是混乱矩阵给了我有人能帮我知道这个执政官
的
意思吗?
浏览 2
提问于2020-04-13
得票数 0
1
回答
带Galaga
定义
状态
的
Q
学习
我正在致力于
Q
-Learning
的
实现,以构建一个玩Galaga的人工智能。我知道
Q
-learning需要状态和动作,并需要表格来确定状态之间
的
移动。
Q
-Learning online
的
所有示例和教程似乎都是用于基于网格
的
游戏,具有易于
定义
的
状态。但Galaga涉及左右移动和向上射击,敌人在整个游戏过程中随机移动。因此,我在
定义
Q
-Learning算法中
的
状态应该是什么时遇到了麻烦
浏览 1
提问于2018-04-20
得票数 0
1
回答
深度
Q
学习
(dqn)
与
神经拟合
Q
迭代
的
区别
根据我
的
理解,它们似乎在做同样
的
事情,除了dqn每C步更新一次目标网络。
浏览 8
提问于2019-04-25
得票数 2
1
回答
一个可
学习
的
函数怎么会模糊?
在一个关于密码
混淆
的
讲座中,我无意中听到可
学习
函数是模糊
的
。但对我来说,这似乎是违反直觉
的
。让我们以一个线性函数为例(作为可
学习
函数
的
一个例子),然后假设给我函数
的
任何模糊版本,我总是可以通过查询能够访问原始函数
的
oracle来找到原始函数--那么,我是如何开始
混淆
原始可
学习
函数
的
呢?
浏览 0
提问于2020-12-31
得票数 0
回答已采纳
1
回答
Q
学习
与
时间差异
与
基于模型
的
强化
学习
、
、
、
我在大学上了一门叫做“智能机器”
的
课程。向我们介绍了三种强化
学习
的
方法,并向我们提供了何时使用它们
的
直觉,我引述如下: 有什么很好
的
例子说明什么时候应该选择一种方法而另一种方法呢?
浏览 19
提问于2015-12-09
得票数 23
回答已采纳
4
回答
学习
Django,但
与
变量
混淆
、
、
我正在
学习
Django教程,我正在创建投票应用程序
的
步骤3。有一个名为"question_id“
的
变量,我不知道它到底是从哪里
定义
的
,或者它是从哪里来
的
。我会把文件发到下面。我唯一
的
猜测是,当在Models.py中
定义
类问题时,这个变量是由Django内部创建
的
,但我不确定。它没有在“问题”类中
定义
。这是我
的
档案:from django.shortcuts import
浏览 1
提问于2017-01-18
得票数 2
回答已采纳
1
回答
bellman最优方程
与
Q
学习
的
关系
、
、
、
bellman最优方程
的
状态-行动
的
最佳值( sutton 2018第63页)是 ?
Q
学习
是 ? 我知道
Q
-learning是无模型
的
。所以它不需要下一个状态
的
转移概率。然而,当s,a给定时,bellman方程
的
p( s‘r|s,a)是下一状态s’具有奖励r
的
转移概率。所以我认为要得到一个
Q
(s,a),它需要转移
的
概率。 bellman方程
的
Q
和
浏览 50
提问于2020-02-02
得票数 3
回答已采纳
1
回答
强化
学习
中
Q
*函数
的
定义
、
、
我正在通过萨顿
的
“强化
学习
导论”。他给出了
q
_*函数
的
定义
如下其中,A_t是在t时采取
的
行动,而R_t是
与
采取A_t相关联
的
奖励。据我理解,
q
_*代表了采取行动a
的
真正价值,这是选择a时
的
平均奖励。 但我不明白为什么t会包含在这个方程中。
q
_*(a)真的应该是
q
_*(a,
浏览 0
提问于2020-10-10
得票数 1
回答已采纳
3
回答
Q
学习
agent
的
学习
速率
、
、
学习
速度如何影响收敛速度和收敛本身
的
问题。如果
学习
速率是常数,
Q
函数会收敛到最优
的
on还是
学习
速率一定会衰减以保证收敛?
浏览 5
提问于2015-10-08
得票数 6
回答已采纳
2
回答
Q
-
学习
价值过高
、
、
、
我最近尝试在Golang实现一个基本
的
Q
-
学习
算法。请注意,我是新
的
强化
学习
和人工智能在一般,所以错误很可能是我
的
。t-1
的
Q
(s, a)值。值得一提
的
是,使用一种简单
的
学习
方法,我在python脚本中发现它工作得非常好,而且感觉更聪明!当我玩它时,大多数时候结果是平局(如果我不小心地玩,它甚至赢了),而用标准
的
Q
-
学习
方法,我甚至不能让它赢!这
浏览 1
提问于2016-05-30
得票数 4
回答已采纳
1
回答
Q
-
学习
:目标网络
与
双DQN
我很难理解目标网络和双DQN之间
的
区别目标网络生成目标值-
Q
值,用于计算训练过程中
的
每一个动作
的
损失。目标网络
的
权重是固定
的
,而且通常是通过向主
Q
网络值进行少量更新。双DQN:在计算训练步骤
的
目标
q
值时,我们没有取最大
q
值,而是使用我们
的
主网络选择一个动作,而我们
的
目标网络为该动作生成目标
q
值。这听起来和我很相似,这个等式也让我迷失了方向: qT
浏览 0
提问于2018-05-28
得票数 11
回答已采纳
1
回答
深度
学习
精度
与
混淆
矩阵精度
、
、
、
我正在使用fer2013数据集进行深入
学习
。 📷 我有一些误解-为什么我
的
精度有这么大
的
不同?这个
混淆
矩阵部分有错误吗?这是我
的
笔记本-> https://www.kaggle.com/code/prilia
浏览 0
提问于2022-05-03
得票数 1
回答已采纳
2
回答
我怎样才能学到奖励功能?
、
我目前正在进行一个课程项目,并试图为类似于othello
的
游戏开发人工智能。G(state) = p_0*A_0 + p_1*A_1 + ...+p_n*A_n一种建议是使用机器
学习
来生成函数
的
参数,但在阅读过程中,我发现像
Q
学习</
浏览 1
提问于2013-09-12
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP容易混淆的知识,整理成学习笔记
C语言入门学习中字符与字符串的问题,你混淆了吗?
C语言的几个易混淆的文件与编程机制!
深度学习第57讲:深度强化学习与深度Q网络
JAVA学习笔记,自定义对象与prototype原型
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券