腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
当
使用
强化
学习
模型
ddpg
时
,
输入
数据
是
序列
数据
。
当
使用
强化
学习
模型
ddpg
时
,
输入
数据
是
序列
数据
、高维(21维)状态和低维(1维)动作。这对
模型
的训练有什么负面影响吗?如何解决这个问题
浏览 39
提问于2021-01-23
得票数 0
1
回答
基于监督
数据
集的
强化
学习
、
、
、
我试着做一个大学项目,我的问题
是
,我的教授让我在一个基本的监督
数据
集上做一个像RL这样的高级ML
模型
,我试图让他相信RL也是不合适的。是否有方法对基于时间的
数据
集执行RL?
浏览 2
提问于2022-08-08
得票数 0
1
回答
web服务器上实时
数据
的
强化
学习
、
、
、
、
问:是否有可能在NodeJS服务器上实现
强化
学习
模型
?注意:我所拥有的培训
数据
不允许有监督的
学习
,即没有目标类的
数据
。
浏览 0
提问于2019-03-01
得票数 2
1
回答
大
数据
集上的keras训练
、
、
、
、
其想法
是
对一些
数据
集(如1、2、3)进行培训,在获得权重之后,另一个
数据
集(如4、5、6)将开始进行一次新的培训,从上一次培训中初始化权重。就实现而言,它是有效的,但是,上一次轮转所产生的权重只在用于训练该轮的
数据
集上表现得更好。其他轮调也是如此。换句话说,从dataset上的培训中提取的权重: 4,5,6不能给
数据
集1的图像带来好的结果,就像在
数据
集上训练的那样: 1,2,3,这不应该是我打算做的事情。其思想
是
,权重应该调整,以有效地处理所有
数据
集,
浏览 3
提问于2020-11-18
得票数 0
回答已采纳
1
回答
如何实现一次要求所有输出的成本函数
这方面的一个例子
是
,网络针对未来培训
数据
的行为将影响成本。例如,网络可能会被训练来驾驶一辆模拟的汽车绕一条赛道,而成本是完成的时间或撞车的时间。 在tensorflow中实现这一目标的方法是什么?
浏览 3
提问于2018-04-16
得票数 0
回答已采纳
1
回答
为什么
DDPG
/TD3不能从旧
数据
和PPO中获益?
关于深度
强化
学习
,我有一个更一般的问题。我总是有点挣扎,到底有什么不同的断断续续的政策
是
。可以肯定地说,非策略
是
在轨迹采样过程中从不同的行为分布中进行抽样,而on策略
是
使用
实际策略进行轨迹生成。而评论家通常是基于MSE训练的,
使用
的
是
观察到的下一个时间步骤的奖励(可能
使用
一些注册的多个步骤,但目前忽略了一个注册)和下一个时间步骤的网络本身。PPO
使用
策略的比率来限制逐步大小,而
DDPG
则
使用
浏览 6
提问于2019-09-25
得票数 1
1
回答
添加特征的稳定集主成分分析
、
、
、
、
是否有可能采用PCA设置(或任何其他降维技术)来添加新的特性,而不需要重新训练受过该特定PCA训练的下游
模型
?我们的想法
是
,(希望)我们可以有新的功能来改进PCA,这样我们每次添加新功能
时
都不需要再培训。如果这是不可能的,在这里解释,如何以另一种方式实现这一点?我们通过添加新
数据
源定期添加新特性,或者通过特征工程添加一些新特性。下行流
模型
依赖于特征空间的主成分分析。通过对PCA而不是针对特征的
模型
进行培训,可以直接简化工作流,并且如果可能有一个PCA (或另一个特征提取过程)将原始特征映
浏览 0
提问于2017-09-11
得票数 3
3
回答
使用
强化
学习
解决分类问题
、
、
我可以在分类中
使用
强化
学习
吗?比如人类活动识别?又是如何做到的?
浏览 2
提问于2017-06-17
得票数 11
2
回答
“
强化
学习
”在监督
学习
模型
中的应用
、
、
、
是否可以在有监督的
模型
上
使用
“
强化
学习
”或反馈回路?我
使用
监督
学习
模型
(更确切地说是线性回归
模型
)解决了一个机器
学习
问题,但我希望通过对预测输出创建一个反馈环来改进结果,即如果算法在某些例子上出错,就告诉算法。据我所知,这基本上就是
强化
学习
的工作原理:该
模型
从正负反馈中
学习
。 我发现我们可以
使用
PyBrain实现有监督
学习
和<e
浏览 2
提问于2019-07-11
得票数 0
3
回答
星星之火-mllib再培训保存的
模型
、
、
我正在尝试
使用
spark进行分类,特别是
使用
RandomForestModel。我需要能够训练一个
模型
,为将来的
使用
保留
模型
,但也能够加载它和进一步的训练。比如,扩展
数据
集,然后再进行训练。
浏览 7
提问于2017-01-03
得票数 0
回答已采纳
1
回答
预测具有中间活动的即将到来的项目里程碑的状态
、
、
我有100+项目
数据
。每个项目从头到尾都有175个连续的活动。在我们想要预测的175项活动之间,大约有7个关键里程碑。
数据
是
完全绝对的(意味着每个活动状态都是R,A,G,B,GR.)因此,我们想预测这7个里程碑(R,A,G)的状态,比如说在每25个活动之后。项目
是
一种土建工程项目,其顺序
是
收集、审查、批准、高层次设计、评审、低水平设计、识别风险、构建、交付等。里程碑
是
Reqts的结束、设计的结束、构建的结束和部署的结束等。因为我们
是
机器
学习
的新手,所以
浏览 0
提问于2020-08-04
得票数 1
1
回答
将有监督的神经网络转化为
强化
学习
?
、
我有一个功能性的LSTM
模型
,它具有可接受的性能。现在我如何将这个受监督的
模型
转换为一个
强化
学习
模型
,以提高性能?关于如何将有监督的
模型
转换为
强化
学习
模型
,有什么例子吗?详细信息:我有一个多
输入
多输出系统(因为我不能分享实际问题,让我们假设天气预报为例),我需要实时预测输出(如温度、风速等)。我有一个很大的
数据
集,我尝试了一个监督
学习
模型
,它可以很好地实时地完成预
浏览 0
提问于2019-10-21
得票数 2
5
回答
强化
学习
还是监督
学习
?
、
如果在
强化
学习
(RL)算法在现实世界中工作之前,需要在模拟环境中进行大量迭代,为什么我们不
使用
相同的模拟环境来生成标记
数据
,然后
使用
监督
学习
方法而不是RL?
浏览 3
提问于2018-11-14
得票数 1
2
回答
主动
学习
和
强化
学习
有什么区别?
、
、
、
维基百科:如何区分他们?确切的区别是什么?
浏览 0
提问于2020-11-13
得票数 14
回答已采纳
1
回答
模型
和策略的区别是什么?
、
、
、
这两个定义似乎都表明,它们正在从状态映射到行为,那么,两者有什么区别,还是我错了?
浏览 7
提问于2019-07-27
得票数 2
回答已采纳
2
回答
如何有效地利用GPU进行
强化
学习
?
、
最近我研究了
强化
学习
,有一个问题困扰着我,我找不到答案:如何有效地
使用
GPU进行培训?据我所知,与环境的持续交互
是
必需的,对我来说这似乎
是
一个巨大的瓶颈,因为这个任务通常是非数学/不可并行的。但是,例如Alpha Go
使用
多个TPU/GPU。他们
是
怎么做到的?
浏览 0
提问于2018-03-08
得票数 16
回答已采纳
4
回答
监督
学习
,(ii)无监督
学习
,(iii)
强化
学习
、
我
是
机器
学习
的新手。在阅读关于监督
学习
,无监督
学习
,
强化
学习
的时候,我遇到了一个问题,如下所示,并感到困惑。请帮助我在以下三项中识别出哪一种
是
监督
学习
,无监督
学习
,
强化
学习
。哪种类型的
学习
(如果有的话)最适合描述以下三种情况: (i)为自动售货机设立硬币分类系统。为此,开发人员从美国造币厂获得准确的硬币规格,并推导出大小、重量和面额的统计
模型
,然后自动售货机<em
浏览 3
提问于2013-04-03
得票数 5
1
回答
如何在机器
学习
模型
中包含变量属性?
如果某些属性随着时间的推移而发生变化,可以
使用
哪些机器
学习
技术来建立
模型
?例如,预测一家酒店的价格取决于该城市的游客数量,这是时间依赖的,也就是说,它是不时变化的。此外,如果我们在一些静态
数据
上有一个很好的训练
模型
,那么如果一些
数据
发生变化,那么除了在完整
数据
上重新训练
模型
之外,还有什么方法来更新
模型
呢?
浏览 18
提问于2019-05-22
得票数 0
2
回答
神经网络中的Q-
学习
而不是
学习
、
、
我已经在这个神经网络中实现了Q-
学习
,然而,它并没有导致代理赢得更多的游戏时间(甚至在100万次游戏之后)。我将尝试用文字解释我做了什么,希望有人能发现一个错误,这可能导致这个问题。我初始化了4个MLP,每个可能的动作一个,有100个
输入
节点(整个游戏网格10x10),其中每个点
是
1如果玩家本身在那里,0如果点
是
空的,-1如果对手访问过这个点。Q值
是
使用
乙状结肠或RELU激活函数来确定的(我尝试了两者)。 然后,我计算在新的状态4q-值,并
使用
它来训练我的第一步的网
浏览 2
提问于2016-10-19
得票数 2
1
回答
利用LSTMs进行时间
序列
预测:使时间
序列
平稳的重要性
、
、
、
、
在这篇关于静态和差异的链接中,人们提到像ARIMA这样的
模型
需要一个平稳的时间
序列
来进行预测,因为它的统计特性如均值、方差、自相关等随着时间的推移
是
恒定的。由于RNN具有更好的
学习
非线性关系(如下所述:递归神经网络在时间
序列
预测中的应用前景)的能力,并且在
数据
大的情况下比传统的时间
序列
模型
表现得更好,因此了解平稳
数据
对其结果的影响是非常必要的。我需要知道的问题如下: 在传统的时间
序列
预测
模型
中,时间
浏览 0
提问于2017-11-16
得票数 33
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
DQN、A3C、DDPG、IQN…你都掌握了吗?一文总结强化学习必备经典模型(一)
深度强化学习-DDPG算法原理和实现
探秘多智能体强化学习-MADDPG算法原理及简单实现
无人驾驶中的深度强化学习
强化学习在自动驾驶的应用
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券