腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(56)
视频
沙龙
1
回答
敏感度
太低
,
在
插入
符号
训练
中
AUC
非常
高
,
交叉
验证
重
采样
结果
、
、
、
我应该如何解释:灵敏度
太低
,
在
插入
符号
训练
中
AUC
非常
高
,
交叉
验证
在
我
训练
的数据上重新
采样
结果
。 模型的性能是否很差?
浏览 4
提问于2016-08-26
得票数 1
2
回答
高
查全率但精度
太低
会导致数据不平衡
、
、
、
、
我
在
一个带有232:1二进制类的
重
不平衡数据库上使用XGBoost分类器
训练
一个模型。由于我的
训练
数据包含750 k行和320个特征(
在
进行了许多特征工程、特征相关滤波和低方差滤波之后),我更喜欢使用scale_pos_weight来处理不平衡而不是过
采样
的数据。
在
使用贝叶斯优化方法优化PR参数并进行5倍
交叉
验证
之后,我得到了以下最佳
交叉
验证
分数:PR
AUC
= 4.87%, R
浏览 0
提问于2021-04-09
得票数 4
3
回答
基于
插入
符号
中
的
训练
数据的ROC曲线
、
、
使用R包
插入
符号
,如何根据train()函数的
交叉
验证
结果
生成ROC曲线?., data=Sonar, trControl=ctrl)
训练
函数遍历一系列mtry参数并计算ROC
AUC
。注意:如果用于
采样
的方法是LOOCV,那么rfFit将在rfFit$pred插槽
中
包含一个非空
浏览 1
提问于2015-06-30
得票数 30
回答已采纳
1
回答
用
插入
符号
的
训练
函数生成
训练
和
验证
集图
、
、
、
我
在
R中使用
插入
符号
的
训练
函数来生成一个使用GBM的模型。我使用了重复
交叉
验证
与5次重复,这意味着将有50个样本。我想问的是,是否有一种方法可以用不同的方式来绘制
结果
,比如在x轴上显示增强迭代,
在
y轴上显示
auc
,在里面显示从最佳参数选择
中
得到的
结果
,但是有一条单独的行来
训练
褶皱和测试褶皱。当您使用gbm包
中
的"gbm“函数,并使用"gbm.p
浏览 3
提问于2015-10-01
得票数 0
回答已采纳
1
回答
是否有一种仅为90%和10%拆分而不是cv的trainControl方法?
、
我正在阅读
插入
文档。我想我可以做折叠=1,但不知道是否有一种指定的方法
在
插入
符号
中
这样做?
在
文档
中
,trainControl()
中
的方法可用的参数如下:
重
采样
方法: boot、boot632、cv、repeatedcv、LOOCV、LGOCV (用于重复<em
浏览 1
提问于2019-02-14
得票数 1
回答已采纳
1
回答
带有
插入
符号
的时间序列
交叉
验证
我知道
在
trainControl中使用'timeslice‘可以进行时间序列
交叉
验证
,但是看起来它似乎是通过
训练
集一次一个样本进行的。是否有任何方法来执行相同的
交叉
验证
策略,同时为“timeslice”指定拆分的数量?
浏览 0
提问于2018-01-24
得票数 0
1
回答
欠
采样
条件下高度不平衡数据的
交叉
验证
、
、
、
、
在
我的问题中,我处理的是一个高度不平衡的数据集,比如每一个正面类都有10000个负值。一种正常的
训练
模型的方法是对数据进行欠
采样
。在这一过程
中
,对我们的模型进行低
采样
数据的
训练
,并检查模型对保留的评估(从原始数据-不欠
采样
)是
非常
重要的。 现在同性恋来了。
交叉
验证
实际上将欠
采样
的列车组分割成K段,并将其中一个折叠作为测试集(现在是欠
采样
的测试集)。我认为对于模型评估,我们实际上需要
浏览 0
提问于2019-02-04
得票数 12
回答已采纳
2
回答
为什么模型的准确率很高,只有84%,而
AUC
却很低,只有13%?
、
、
我已经建立了模型,它为随机森林和支持向量机提供了84%的准确率,但只给出了13%的
非常
低的
auc
。我是用python构建的,我是机器学习和数据科学的新手。 我预测数据集上有0和1个标签。对改善
auc
有什么建议吗?
浏览 3
提问于2017-11-02
得票数 0
1
回答
h2o和
插入
符号
中
的数据分区功能似乎
在
泄漏数据?
、
、
、
、
我之所以怀疑这一点,是因为我
在
使用H2O的h2o.splitFrame函数或
插入
符号
的createDataPartition函数时得到了两个完全不同的
结果
--当我自己手动划分数据时:
在
我的数据与时间序列数据,3000-4000个数据点,使用10倍的简历,我获得了
非常
可接受的
结果
在所有的数据集:培训,
验证
,
交叉
验证
,和测试集时,使用
插入
符号
的xgboost或h2o。然而,只有使用<
浏览 1
提问于2017-04-18
得票数 1
回答已采纳
1
回答
AUPRC
在
插入
符和PRROC
中
的差异
、
、
我正在处理一个
非常
不平衡的分类问题,我使用AUPRC作为
插入
符号
的度量。我得到了
非常
不同的
结果
,测试集
在
AUPRC从
插入
和在AUPRC从软件包PRROC。
在
我的不平衡情况下,差异更大(AUPRC= 0.1688446与-via control$sampling <- "smote"的SMOTE
重
采样
,与PRROC的0.01429 )。更新:我
在
代码
中
找不到
浏览 1
提问于2018-11-14
得票数 3
回答已采纳
2
回答
xgboost总是预测数据集不平衡的1级。
、
chi-2得到100科尔,但我的混淆矩阵如下所示:1 190 0我试着使用10000属性,随机选择100个属性,根据chi-2选择100个属性,但我从未得到0的预测
结果
浏览 0
提问于2017-10-24
得票数 0
回答已采纳
2
回答
如何在
插入
R包中使用随机森林来获得基尼系数?
、
我正在尝试理解randomForest包和caret包
中
的随机森林实现之间的区别。Petal.Width 45.57974# 3 Sepal.Length 9.59369我试图
在
caret
中
获得相同的信息,但我不知道如何指定树的数量,也不知道如何获得基尼系数: rf2 <- train(Species ~ ., data = iris, method = "rf",我知道这不是测试分类器性能的正确方法,但我
浏览 3
提问于2015-05-12
得票数 2
4
回答
随机森林异常
高
的精确度,有可能吗?
、
、
、
sklearn.metrics import confusion_matrix我已经通过网格搜索优化了超参数,并执行了k倍
交叉
验证
浏览 0
提问于2018-11-06
得票数 1
回答已采纳
1
回答
前馈神经网络的超参数整定和过拟合-小批处理和
交叉
验证
、
、
、
x_var) loss.backward()最后,我
在
一个单独的测试集上测试我的模型我偶然发现了一种使用随机搜索来优化超参数以及实现K折叠
交叉
验证
(RandomizedSearchCV)的方法。 我的问题是双重的(没有双关的意思!)首先,理论上是:k-折叠
验证
是必要的,还是可以为小批量前馈神经网络增加任何好处?据我所见,小型批处理方法应该做大致相同的工作,停止过度拟合。
浏览 2
提问于2020-03-25
得票数 0
回答已采纳
2
回答
“r”‘s’s“看护”包
中
的列车测试分拆
、
我现在要做的是一个相当简单的机器学习工作流,即: 对于每个k,将模型
训练
在
浏览 2
提问于2016-03-01
得票数 8
回答已采纳
1
回答
Caret分类阈值
、
、
、
我一直
在
使用gbm
在
Rstudio
中
的caret包
中
查找出现故障的概率。任何帮助都将受到感激。
浏览 1
提问于2021-01-22
得票数 8
回答已采纳
2
回答
如何将
验证
保留设置为
插入
符号
、
、
、
我
非常
喜欢在建模的早期阶段使用
插入
符号
,特别是因为它
非常
容易使用
重
采样
方法。然而,我正在研究一个模型,在这个模型
中
,
训练
集有相当多的案例是通过半监督的自我
训练
增加的,而且我的
交叉
验证
结果
也因此而扭曲。我的解决方案是使用
验证
集来衡量模型的性能,但是我看不到
在
插入
符号
中直接使用
验证
集的方法--我是
浏览 0
提问于2013-08-09
得票数 4
回答已采纳
1
回答
我的数据集中是否存在过度拟合的问题?
、
、
、
在
添加了更多功能之后,我还试图查看性能。下表给出了算法的正确率(
训练
数据集)以及使用的特征集。所取得的
结果
是: 我已经上传了
验证
培训和测试性能(70-15-15).现在你能告诉我我的数据是否过份了吗?
浏览 0
提问于2016-08-08
得票数 4
回答已采纳
1
回答
如何规划一个避免过度拟合的模型分析?
、
正如我在教程中所读的,我将我的数据集分成一个
训练
样本(80%)和一个测试样本(20%),然后用
交叉
验证
(5倍)对我的算法进行
训练
。当我重新运行我的程序两次(我只测试了KNN,我现在知道这是
非常
不合适的),我得到了真正不同的
结果
,以不同的敏感性,特异性和准确性。我想,如果我重新运行程序,直到指标是好的,我的算法将被过度,我也猜这将是因为重
采样
的测试/培训样本,但请纠正我,如果我错了。 如果我要尝试很多算法来看看我能得到什么,我应该在某个地方修复我的样本吗?(<e
浏览 0
提问于2019-03-14
得票数 4
回答已采纳
1
回答
KNN
在
插入
符号
中
的自定义参数调整
、
、
我有一个k最近的近邻实现,允许我计算k的多个值以及
训练
和测试数据的多个子集(例如,K折叠
交叉
验证
中
的所有折叠,AKA
重
采样
度量)。我的实现也可以利用多个核心。知道怎么处理这个问题吗?更一般地,假设您有一个模型类,可以使用单个模型fit (例如,ala ,但对于多个参数值
浏览 4
提问于2013-11-04
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习概述与算法介绍(二)
处理不平衡数据的技巧总结
处理不平衡数据的技巧总结!
自动机器学习计算量大!这种多保真度优化技术是走向应用的关键
R语言梯度提升机 GBM、支持向量机SVM、正则判别分析RDA模型训练、参数调优化和性能比较可视化分析声纳数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券