腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
强化
学习
中
的
最优性
是什么
?
、
、
我知道定义:-最优策略(pi)*满足(pi)* >= (pi) for all (pi)保证存在最优策略,但可能不是唯一
的
。这两行
是什么
意思?
浏览 28
提问于2019-06-11
得票数 1
回答已采纳
1
回答
在深入
强化
学习
的
背景下,批量大小
的
含义
是什么
?
、
批次大小是指在监督
学习
中
接受神经工作训练
的
样本数,但是,在
强化
学习
的
背景下,批次大小
的
意义
是什么
?它也是指样品吗?如果是的话,在
强化
学习
的
背景下,样本
的
意义
是什么
?
浏览 0
提问于2019-04-02
得票数 3
回答已采纳
2
回答
强化
学习
与运筹学
、
、
、
我想知道什么时候人们会决定求助于
强化
学习
来解决以前通过数学优化方法解决
的
问题-比如旅行推销员问题或作业调度或出租车共享问题。由于
强化
学习
的
目标是最小化/最大化某个成本/回报函数,就像运筹学试图优化某个成本函数
的
结果一样,我假设双方中
的
一方可以解决
的
问题可能会被另一方解决。然而,事实是否如此呢?两者之间是否存在权衡?关于上面提到
的
问题,我真的没有看到太多关于RL
的
研究,但我可能错了
浏览 0
提问于2018-08-10
得票数 7
1
回答
强化
学习
中
的
下游任务
、
我读过一些关于基于自我监督
的
强化
学习
的
段落,这使得agent能够在不受人监督
的
情况下
学习
,并为未标注
的
数据集训练提供有效
的
策略。但是我发现“下游任务”很多次了。那么,
强化
学习
中
的
“下游任务”
是什么
意思呢?
浏览 8
提问于2021-12-19
得票数 1
1
回答
将RNN
的
隐藏状态传递给另一个RNN
、
、
我正在使用
强化
学习
教一个人工智能,一个奥地利纸牌游戏,与不完美的信息,称为施纳普森。对于不同
的
游戏状态,我有不同
的
神经网络(使用不同
的
特征)来计算值/策略。我想尝试使用RNN,因为过去
的
操作对于导航未来
的
决策可能很重要。我目前正在使用Julia
中
的
浏览 0
提问于2021-10-11
得票数 1
2
回答
强化
学习
算法
、
我想用
强化
学习
机器
学习
的
方法来研究和开发一些应用。我已经熟悉使用监督
学习
的
分类问题。谢谢!
浏览 0
提问于2021-11-15
得票数 0
回答已采纳
1
回答
如何使用我
的
keras TensorFlow模型减少损失?
、
、
所以我有一个大约140,000个样本
的
数据集,有5个输入,汽车
的
速度,汽车
的
加速度,用雷达收集
的
领先汽车
的
速度,领先汽车
的
距离和领先汽车
的
加速度。输出范围为0到1,0表示最大制动,1表示最大加速度。我是神经网络
的
初学者,所以我在优化我
的
模型以获得此数据
的
最佳精度/损失时遇到了困难。我一直在尝试改变优化器,激活函数,隐藏层
的
数量,层
中
的
节点数量,等等,但随
浏览 36
提问于2019-06-04
得票数 0
3
回答
强化
学习
工具
Tensorforce、Kerasrl和chainerrl用于
强化
学习
的
区别
是什么
?据我所知,这三种方法都与OpenAI健身房环境有关,并且具有相同
的
强化
学习
算法。在表现上有什么不同吗?
浏览 1
提问于2018-09-10
得票数 1
1
回答
为什么在
强化
学习
中
需要MDP设置
、
、
在许多
强化
学习
( RL )论文中,马尔可夫决策过程(MDP)是
强化
学习
问题
的
典型问题集。这种设置
的
真正好处
是什么
?一些论文使用LSTM作为其策略网络结构,这显然违反了MDP假设,并且更有意义。
浏览 3
提问于2017-04-04
得票数 0
1
回答
监督
学习
与离线(批)
强化
学习
、
大多数材料(例如大卫·西尔弗
的
在线课程)我都能找到关于监督
学习
和
强化
学习
之间关系
的
讨论。然而,它实际上是监督
学习
和在线
强化
学习
的
比较,在这种情况下,agent在环境
中
运行(或模拟交互),以获得对底层动力学
的
有限知识
的
反馈。我对离线(批量)
强化
学习
更感兴趣,在这里,数据集(收集
的
学习
经验)是先验
的</em
浏览 4
提问于2021-08-14
得票数 0
回答已采纳
9
回答
强化
学习
的
良好实现?
、
、
、
对于一个人工智能项目,我需要实现一个
强化
学习
算法,这比一个简单
的
俄罗斯方块游戏。游戏是用Java编写
的
,我们有源代码。我知道
强化
学习
理论
的
基本知识,但我想知道在SO社区
中
是否有人对这类事情有经验。 编辑:越具体越好,但是关于这个主题
的</
浏览 3
提问于2009-04-11
得票数 25
回答已采纳
2
回答
为了编写一个简单的人工智能程序来玩游戏,我需要什么知识?
、
、
、
、
我
的
课程之一是“机器
学习
入门”,我一直想在这门课上做一个个人项目。为了训练一个简单的人工智能程序来玩游戏,我需要获得什么知识?这是我目前在机器
学习
中所知道
的
-统计推断可能是近似正确
的
模型,包括泛化界和模型选择。基本
的
超平面算法:感知器和Winnow。核粒 促进弱
学习
者向强
浏览 0
提问于2017-01-04
得票数 9
回答已采纳
1
回答
通过
强化
学习
学习
权重
的
神经网络
中
的
行为和奖励
是什么
?
、
我
的
目标是预测客户流失。我想利用
强化
学习
来训练一个递归神经网络,它可以预测输入
的
目标响应。此外,当我们不知道每个输入神经元
的
目标反应时,我们应该如何创造奖励或惩罚来教导神经网络
的
权重呢?
浏览 4
提问于2016-05-21
得票数 0
1
回答
机器
学习
如何与大数据相结合?
、
、
机器
学习
如何与大数据集成?机器
学习
与MapReduce?What
的
区别
是什么
?(有监督
学习
、无监督
学习
、
强化
学习
)是决策
的
主要内容之一,大数据在医疗保健和智能城市决策
中
的
区别
是什么
?<code>H 111</code>以及大数据与深度
学习
作为机器
学习
技术之一
的
关系?<code>H 2
浏览 3
提问于2019-11-14
得票数 1
回答已采纳
1
回答
再培训
的
定义
是什么
?
、
在迁移
学习
中
,我们总是使用新
的
数据来重新训练预先训练
的
模型.但是,再培训
的
具体定义和官方定义
是什么
?或者,在迁移
学习
领域还是
强化
学习
领域,有什么论文提到了这个定义?
浏览 0
提问于2020-03-16
得票数 3
3
回答
为什么RL被称为“
强化
”
学习
?
、
、
我理解为什么机器
学习
是这样命名
的
,除此之外,还有监督
学习
和无监督
学习
背后
的
术语。那么,关于
强化
学习
,reinforced
是什么
?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
1
回答
如何实现
强化
学习
模型?
、
我有一些关于
强化
学习
的
问题。我已经研究了
强化
学习
的
所有数学背景,但我不能编写这个模型
的
代码。我还发现了下面的列表。论文到底
是什么
?它们是实现
强化
学习
模型
的
框架吗?
浏览 3
提问于2020-10-30
得票数 2
1
回答
基于模型和模型
的
强化
学习
我正在
学习
强化
学习
,我发现了令人困惑
的
信息。我知道有两种不同类型
的
强化
学习
,基于模型和模型自由。在第二个图像
中
,可以看到TD
学习
,所以我不明白Td
学习
是另一种
强化
学习
还是基于模型
的
。 📷
浏览 0
提问于2022-02-21
得票数 0
回答已采纳
1
回答
Matlab Simulink与
强化
学习
方法
、
、
我想要创建一个项目使用Matlab simulink环境模型,以寻找最优
的
参数使用
强化
学习
。是否可以从matlab导出环境数据并将其集成到python脚本
中
,或者创建一个与matlab
的
接口,以便与其进行交互培训?还是有更好
的
方法?不幸
的
是,这是相当模糊
的
,所以我很抱歉,因为我不知道matlab
的
模型会
是什么
样子。它也将有助于我看到一个例子项目或类似于访问Matlab
的
Simulink数据和
浏览 4
提问于2022-08-16
得票数 0
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
、
、
深入
的
Q-
学习
,A3C,政策进化
的
遗传算法,他们都没有
学习
小行星,或至少表现比人类差得多。根据RL
的
说法,从最艰难
的
Atari游戏来看,大部分
的
焦点都集中在蒙特祖马
的
复仇上,这显然受到了很少
的
奖励。然而,我不认为这是小行星(视频)
的
情况,因为每一颗小行星
的
射击都会得到奖励。为什么DRL表现那么差?以下是一些报告小行星上
的
坏结果
的
论文(有些文章互相引用): 基于深度
浏览 0
提问于2018-02-16
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习之——强化学习中的模仿学习
机器学习之——强化学习中的免模型学习
机器学习之——强化学习中的有模型学习
无人驾驶中的深度强化学习
强化学习中的多目标优化策略研究
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券