腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9776)
视频
沙龙
1
回答
如何
从
随机
森林
模型
的
重
采样
中
从
插入
符
子
采样
中
提取
最终
的
模型
数据
集
r-caret
在
重
采样
过程
中
的
子
采样
之后,如此处所示,我
的
问题很简单,当
插入
符号方法=“rf”且
采样
方法为“smote”时,
如何
提取
从
该过程产生
的
实际
数据
集
。例如,如果使用rpart glm,则可以使用
模型
$ method= $ data
提取
数据
;如果方法=“rpart”,则可以使用<em
浏览 21
提问于2019-04-06
得票数 0
1
回答
R
中
的
随机
森林
:报告和观察到
的
误差值之间
的
差异
r
我尝试在
数据
集
上拟合
随机
森林
。它花了几个小时,但
最终
适合。使用
的
命令是: model <- train (classe~.,data=training,method="rf",prox=F)13737个样本52个预测器5类:'A','B','C','D','E‘ 无预处理
重</em
浏览 2
提问于2015-01-23
得票数 2
1
回答
了解
随机
森林
博客
的
几个问题
r
、
random-forest
、
logistic-regression
、
cross-validation
、
sampling
我试图用
随机
森林
和logistic回归
模型
来理解关于敏感性和特异性之间
的
权衡
的
好博客。我有几个问题: 1)博客在ranger包中使用了10倍
的
交叉验证(参见
模型
mod_rf),并将度量设置为ROC。3) caret包在R中允许过
采样
来调整
数据
的
不平衡。他们尝试logistic回归(见sim_glm
模型
)进行过抽样,并指定repeats = 2
重
复10倍交叉验证2次。它怎麽工作?我不
浏览 0
提问于2018-12-03
得票数 1
2
回答
为什么
模型
的
准确率很高,只有84%,而AUC却很低,只有13%?
python
、
machine-learning
、
random-forest
我已经建立了
模型
,它为
随机
森林
和支持向量机提供了84%
的
准确率,但只给出了13%
的
非常低
的
auc。我是用python构建
的
,我是机器学习和
数据
科学
的
新手。你能告诉我这个可以吗?
模型
是不是太适合了?对改善auc有什么建议吗?
浏览 3
提问于2017-11-02
得票数 0
1
回答
对一个普通
的
线性回归
模型
执行引导,使用我
的
数据
集
的
B=100引导树,并获得RMSE。
machine-learning
、
r
、
rmse
、
bootstraping
因此,我通过R学习机器学习,并且使用来自图书馆群
的
波士顿
数据
集
。我在练习私酒。我已经进行了分析,以确定
如何
使用
数据
集
的
B=100
重
采样
,
从
示例中平均
提取
许多不同
的
数据
点来构成引导
重
采样
。接下来,我想做两件事--再次使用
数据
集
的
B=100结果执行普通线性回归
模型</em
浏览 0
提问于2020-04-22
得票数 0
1
回答
随机
森林
:k折交叉验证
的
OOB?
r
、
random-forest
、
cross-validation
、
r-caret
我是机器学习
的
新手,目前我正在尝试使用R
中
的
插入
符号和randomForest包实现
随机
森林
分类。我正在使用trainControl函数,并反复进行交叉验证。也许这是一个愚蠢
的
问题,但据我所知,
随机
森林
通常使用装袋将训练
数据
分成不同
的
子集并进行替换,使用1/3作为验证
集
来计算OOB。但是,如果您指定要使用k折交叉验证,会发生什么情况?
从
插入</e
浏览 1
提问于2021-03-19
得票数 0
3
回答
提高
插入
符号(R)
中
的
模型
训练速度
r
、
performance
、
machine-learning
、
r-caret
我有一个由20个特征和大约300,000个观察值组成
的
数据
集
。我使用
插入
符号来训练带有doParallel和四个内核
的
模型
。对于我尝试过
的
方法(rf,nnet,adabag,svmPoly),即使在我10%
的
数据
上训练也要花8个多小时。我用bootstrapping
重
采样
了3次,我
的
tuneLength是5。我能做些什么来加快这个令人痛苦
的
缓慢过程吗?有人建议使用
浏览 0
提问于2015-10-02
得票数 12
回答已采纳
1
回答
随机
森林
模型
的
训练误差小于测试误差
machine-learning
、
random-forest
、
sampling
我一直在研究机器学习
模型
,我很困惑该选择哪种
模型
,或者是否有其他我应该尝试
的
技术。我正在使用
随机
森林
来预测使用高度不平衡
的
数据
集
进行转换
的
倾向。目标变量
的
类平衡如下所示。下面是我用于上
采样
和欠
采样
的
代码train_initial
浏览 3
提问于2018-11-22
得票数 1
1
回答
随机
森林
模型
与其它
模型
的
比较
neural-network
、
random-forest
、
ensemble-modeling
我是机器学习
的
新手,我正在努力消除
随机
森林
中
的
袋外错误及其使用。通过比较
随机
森林
的
包外误差和神经网络<e
浏览 0
提问于2020-09-03
得票数 1
回答已采纳
1
回答
错误预测成功
的
可能性很高
dataset
、
predictive-modeling
、
training
、
supervised-learning
我正在研究生产场景
中
机器故障
的
行为。为此,我生成
随机
数据
,形成我
的
不平衡训练
集
,由分类
数据
组成,这些
数据
指示每个子周期中是否存在故障。故障是按指数分布产生
的
。我
的
目的是根据这些特性来预测下一阶段
的
故障行为。 我使用了ROC度量,并考虑了处理不平衡
数据
的
几种策略,如过
采样
、欠
采样
、ROSE和ADASYN。此外,我试图使用合奏来提高
浏览 0
提问于2020-08-11
得票数 0
1
回答
过度
采样
只会平衡培训
集
,那么测试
集
呢?
classification
、
cross-validation
、
class-imbalance
在
数据
分类不平衡
的
情况下,我知道我们只是过
采样
了培训
集
(以防止
数据
从
培训到测试子集
的
泄漏),但是如果我
的
测试集中没有正
数据
点怎么办?测试
集
仍然非常偏斜,只有我
的
阳性类
的
1%。我使用XGBoost、
随机
森林
、Logistic回归和KNN进行分类任务。同时,我也尝试过使用SMOTE、SMOTE和Class_weight来对我
的
训练<
浏览 0
提问于2019-08-20
得票数 2
回答已采纳
1
回答
mlr:使用验证
集
优化
模型
参数
r
、
hyperparameters
、
mlr
刚刚切换到,用于我
的
机器学习工作流。我想知道是否可以使用单独
的
验证
集
来调优超参数。根据我
的
最低理解,makeResampleDesc和makeResampleInstance只接受来自训练
数据
的
重
采样
。 resampling = makeResampleIn
浏览 0
提问于2018-08-04
得票数 2
回答已采纳
1
回答
是否有一种仅为90%和10%拆分而不是cv
的
trainControl方法?
r
、
r-caret
我正在阅读
插入
文档。我想我可以做折叠=1,但不知道是否有一种指定
的
方法在
插入
符号
中
这样做?在文档
中
,trainControl()
中
的
方法可用
的
参数如下:
重
采样
方法: boot、boot632、cv、repeatedcv、LOOCV、LGOCV (用于重复训练/测试拆分
浏览 1
提问于2019-02-14
得票数 1
回答已采纳
3
回答
在处理VotingClassifier或网格搜索时,Sklearn
中
的
GradientBoostingClassifier是否有类权重(或替代方法)?
scikit-learn
、
classification
我正在为我
的
不平衡标签
数据
集
使用GradientBoostingClassifier。在Sklearn
中
,类权重似乎并不是这个分类器
的
参数。我知道我可以在合适
的
时候使用sample_weight,但在处理VotingClassifier或GridSearch时就不能使用它了。有人能帮帮忙吗?
浏览 3
提问于2016-02-22
得票数 10
2
回答
如何
替换包randomForest r
中
的
引导步骤?
r
、
function
、
edit
、
random-forest
、
statistics-bootstrap
例如,我训练了一个经过增强训练
的
模型
,并将其与
随机
森林
训练
模型
(R包randomForest)进行了比较。 我使用时间序列
数据
,其中解释变量是其他
数据
和因变量
的
滞后值。由于某种原因,
随机
森林
的
表现严重不足。我能想到
的
问题之一是,
随机
森林
对每棵树
的
训练
数据
执行一个抽样步骤。如果对时间序列
数据
这样
浏览 6
提问于2015-08-17
得票数 5
回答已采纳
3
回答
随机
森林
分类器- KFold CV调很深
的
树->过配?
machine-learning
、
random-forest
、
cross-validation
、
class-imbalance
我正在对python
中
的
随机
森林
进行调优,并想知道我
的
模型
是否/为什么过于合适。
数据
集
描述如下:50个数字特征,~450标签/热编码特征(后
数据
缩减)分类度量=AUC或F1 (由于
数据
不平衡) 我得到
的</
浏览 0
提问于2018-06-19
得票数 3
2
回答
极小
数据
集
的
二进制分类(<40个样本)
machine-learning
、
scikit-learn
、
binary-classification
我试图在一个非常小
的
数据
集
上进行二进制分类,包括3个负样本和36个正样本。我一直在测试不同
的
模型
从
科学学习(逻辑回归,
随机
森林
,svc,mlp)。我读过使用玫瑰或各种口味
的
打击炮
的
过度
采样
技术,但也读到过
采样
会导致过度适合或不会提高性能。我尝试过过
采样
训练
集
,根据
数据
如何
分割成火车/测试,不同
浏览 0
提问于2022-07-14
得票数 2
回答已采纳
1
回答
使用传感器
的
时间序列预测故障
的
最佳
模型
python
、
classification
、
lstm
、
recurrent-neural-network
、
prediction
我正在与一家公司合作一个项目,开发用于预测性维护
的
ML
模型
。我们拥有的
数据
是日志文件
的
集合。在每个日志文件
中
,我们都有来自传感器(温度、压力、MototSpeed等)
的
时间序列。和一个变量,我们在其中记录发生
的
故障。这里
的
目标是构建一个
模型
,该
模型
将使用日志文件作为其输入(时间序列)并预测是否会出现故障。为此,我有一些问题: 1)能够做到这一点
的
最佳
模型
是什么?2)处理不平衡<em
浏览 4
提问于2020-06-02
得票数 0
1
回答
用于tensorflow
的
音频
重
采样
层
tensorflow
、
keras
、
audio
、
neural-network
、
resample
它需要在自定义
模型
结构
中
重
采样
音频信号。这种
重
采样
任务不是一种可以
从
模型
中发展出来
的
预处理/后处理操作。换句话说,这种
重
采样
是
模型
内部设计
的
一部分。然后,还需要为这样一个层定义梯度操作。对于
重
采样
操作,它将使用tensorflow I/O: 操作工作非常完美,可以很容易地用作前/后处理单元;然而,
浏览 2
提问于2022-03-29
得票数 0
2
回答
我应该重新整理
数据
集
吗?
decision-trees
、
class-imbalance
我拥有的
数据
集
是由路径名组成
的
一些文本
数据
。我正在使用TF-国防军向量器和决策树。
数据
集中
的
类严重不平衡。有几个大类
的
样本数超过500个,而其他一些小类
的
样本数少于100个。有些甚至更小(不到20)。这是实际收集
的
数据
,因此
模型
在实际实现中看到次要类
的
可能性也很小。我现在遇到
的
问题是,
模型
大部分时间预测小班为主修班,使我
的
准确率
浏览 0
提问于2021-07-14
得票数 0
点击加载更多
相关
资讯
深度学习中的结构化概率模型 - 从图模型中采样篇
Bagging与随机森林算法原理小结
集成学习
R语言梯度提升机 GBM、支持向量机SVM、正则判别分析RDA模型训练、参数调优化和性能比较可视化分析声纳数据
随机森林原理介绍与适用情况(综述篇)
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券