腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
R:
K
倍
交叉验证
的
列车数据
集
、
、
我正在使用R中
的
C5.0在心脏病数据
集
上做一些分类任务,在大多数情况下,数据将被分成80%用于
训练
,20%用于
测试
,我想使用
k
倍
交叉验证(
k
=10),但我对这一点感到困惑,正如我们所知道
的
那样,通过使用10
倍
交叉验证,我们
将
整个数据划
分为
9个
训练
子集
和
一个子集进行
测试
。
是否
可以
将
数据划
分为
<e
浏览 0
提问于2017-11-20
得票数 3
2
回答
是否
将
完整
列表
划
分为
k
倍
的
训练
和
测试
集
?
我目前有一个perl脚本,它获取
完整
的
文件
列表
,并将该
列表
平均划
分为
训练
集
和
测试
集
。我现在想做
k
折交叉验证,为此我需要调整perl脚本。 print TRAINLIST "$l\n"; else print TESTLI
浏览 31
提问于2017-06-25
得票数 0
回答已采纳
2
回答
将
k
-折叠交叉验证应用于数据
集
的
混淆
、
我有一个数据
集
,它已经被分成10
倍
,每个折叠都有
训练
、验证
和
测试
集
。我无法理解如何在这个数据
集
上应用10
倍
交叉验证。通常,如果我们想在数据
集
上应用
k
折叠交叉验证,步骤如下:在我
的
例子中,数据
集
已经被划
分为
10
倍
,除了
训练
集
之外,每个折叠都包含验证
和
测试
集</em
浏览 0
提问于2019-03-27
得票数 1
2
回答
术语.分类任务
的
交叉验证试验
和
验证
集
、
、
、
( Confusion1)如果
k
=10,那么这
是否
意味着90%用于培训,10%用于
测试
?所以我们总是有
k
%来
测试
吗?在下面的代码中,我使用了10
倍
的
交叉验证来
训练
支持向量机( Confusion2)。一般来说,数据
集
将
分为
(a)
训练
集
、meas(trainIdx,:) (b)
测试
集
、meas(testIdx,:) c)验证<em
浏览 0
提问于2018-06-25
得票数 2
回答已采纳
2
回答
如果
K
-折叠交叉验证中
的
K
太小呢?
、
、
、
、
与数据
集
相比,使用太小
的
K
值会带来什么后果?
浏览 1
提问于2019-12-23
得票数 0
1
回答
grid.score(X_valid,y_valid)
和
grid.best_score_有什么区别?
、
、
、
在做GridSearchCV时,通过grid.score(.)获得
的
分数之间有什么区别?
和
grid.best_score_best_score_1 = scoresbest_score_1
和
best_score_2各有两种不同
的
输出
浏览 3
提问于2021-09-03
得票数 0
回答已采纳
1
回答
测试
整个数据
集
的
模型性能
是否
正确?
、
、
使用函数train_test_split()
将
数据
集
按75:25
的
比例划
分为
训练
集
和
测试
集
。该模型是在数据
集
x_train
和
y_train上进行
训练
的
(高斯朴素贝叶斯、随机森林、
k
近邻等分类器模型)。 我们现在可以使用
完整
的
数据
集
,即x
和
y来
测试
模型吗?还是
浏览 7
提问于2020-02-27
得票数 0
回答已采纳
2
回答
不平衡分类问题
的
k
-折叠CV估计
测试
AUC
、
、
、
、
我有一个不平衡
的
分类问题。然后,我使用R包ROSE同时对Dataset A中
的
多数类进行了欠采样,并对少数类进行了过采样。这产生了一个平衡
集
(Dataset C),其行数与Dataset A一样多。 我已经在数据
集
C
和
计算
训练
AUC上
训练
了我
的
模型。
浏览 0
提问于2018-04-04
得票数 1
2
回答
对模型进行培训
是否
需要验证
集
?
、
、
为了我
的
研究,我用CNN建立了一个三维图像分类模型。我只有5000张图像,
训练
用4500张图像,
测试
集
用500张图像。我尝试了不同
的
结构
和
参数
的
训练
和
F1评分
和
训练
集
的
准确性高达0.9。幸运
的
是,我没有花很多时间来寻找这些设置
的
高精度。 将该模型应用于
测试
集
,得到了较满意
的
预
浏览 0
提问于2018-03-02
得票数 1
回答已采纳
1
回答
“对培训
集
的
交叉验证”,而开发
和
测试
集
与培训是不同
的
:这有意义吗?语义错误?
、
tbl3 “作为最佳实践,我们
将
标记
的
数据
集
分成一个
训练
集
、一个开发
集
和
一个持久
测试
集
。开发
和
测试
集
各有100个观测值,为
训练
集
留下600个观测值。(.)超参数优化是通过网格搜索进行
的
,在
训练
集
上使用交叉验证来评估每个可能
的
超参数
集
的
模型性
浏览 0
提问于2022-10-10
得票数 3
2
回答
在Sci-Kit学习中拆分数据
集
以进行
K
-折叠交叉验证
、
、
、
、
我被分配了一个任务,需要创建一个决策树分类器,并使用
训练
集
和
10
倍
交叉验证来确定准确率。我查看了cross_val_predict
的
文档,因为我认为这是我需要
的
模块。 我遇到麻烦
的
是数据
集
的
分割。据我所知,在通常情况下,train_test_split()方法用于
将
数据
集
拆
分为
2-- train
和
test。根据我
的
理解,对于
K
折
浏览 6
提问于2019-11-12
得票数 0
回答已采纳
1
回答
KFold
和
ShuffleSplit CV有什么区别?
、
、
似乎每次迭代对象时,KFold都会生成相同
的
值,而Shuffle Split每次都会生成不同
的
索引。这是正确
的
吗?如果是这样,那么一个比另一个有什么用处呢?
浏览 1
提问于2016-01-12
得票数 42
回答已采纳
1
回答
使用weka测量我
的
分类器
的
质量
、
我用python编写了自己
的
分类器,我使用文本语料库来
测试
它,使用F1度量,但现在我想在其他数据挖掘任务中
测试
它,所以我有我
的
分类器输出文件到给定
的
语料库,我想使用Weka不同
的
度量来测量质量,我如何才能通过Weka
的
输出文件并获得质量?
浏览 3
提问于2015-05-13
得票数 0
2
回答
神经网络
训练
时交叉验证?
、
、
训练
神经网络时
的
标准设置似乎是
将
数据分割成
训练
集
和
测试
集
,并一直运行到
测试
集
上
的
分数停止提高为止。现在,问题是:
测试
分数中存在一定数量
的
噪声,因此单个最佳分数可能不符合网络状态,而网络状态最有可能是新数据上
的
最佳状态。我见过一些论文指出
训练
中
的
一个特定时代或迭代是“交叉验证最好
的
”,但我不知道
浏览 0
提问于2016-04-09
得票数 6
回答已采纳
6
回答
Weka中
的
交叉验证
、
、
从我所读到
的
情况来看,我一直认为交叉验证是这样执行
的
: 在
k
次交叉验证中,
将
原始样本随机分成
k
个子样本.在
k
个子样本中,保留一个子样本作为模型
测试
的
验证数据,其余
的
k
−1子样本作为
训练
数据。然后交叉验证过程被重复
k
次(褶皱),每个
k
个子样本精确地使用一次作为验证数据。从褶皱中得到
的
k
值可以被平均(或以其他方式组合)来产生一个单一
浏览 8
提问于2012-05-03
得票数 29
回答已采纳
1
回答
具有验证
和
测试
集
的
k
-折叠交叉验证
、
对于一个项目,我想执行分层
的
5
倍
交叉验证,其中每一次
的
数据被分割成一个
测试
集
(20%),验证
集
(20%)
和
训练
集
(60%)。我希望
测试
集
和
验证
集
是不重叠
的
(五个折叠中
的
每一个)。在维基百科维基百科上或多或少是这样描述
的
: 单个
k
折叠交叉验证与验证
和
测试
<em
浏览 0
提问于2020-12-19
得票数 4
1
回答
调谐模型具有较高
的
CV精度,但
测试
精度较低。我应该使用调优模型还是未调优模型?
、
、
、
、
Before任何调整,我
的
logistic回归分类器对
测试
集
的
准确率为74.6%。我所拟合
的
GridSearchCV模型
的
CV精度为76.5%,表明该模型将比未调优模型具有更高
的
精度。这是让我感到困惑
的
部分。这
是否
意味着我应该继续使用通过GridSearchCV找到
的
“最佳”模型,还是应该使用
浏览 0
提问于2023-02-21
得票数 0
1
回答
基于重采样
的
参数整定/模型选择
、
、
我一直试图深入了解重采样方法
的
更多细节,并在1000行
的
小数据集中实现它们。数据被分成800个
训练
集
和
200个验证
集
。我使用
K
-折叠交叉验证
和
重复
K
-交叉验证来使用
训练
集
训练
KNN。根据我
的
理解,我对结果作了一些解释--但是,我对它们有一定
的
怀疑(见下面的问题):Resampling: Cross-Validated (10
浏览 0
提问于2016-07-13
得票数 0
1
回答
如何使用scikit交叉验证模块
将
数据(原始文本)拆
分为
测试
/
训练
集
?
、
、
、
、
我有大量原始文本
的
观点语料库(2500)。我想使用scikit-learn库将它们分成
测试
/
训练
集
。用scikit-learn解决这个问题最好
的
方法是什么?谁能给我提供一个在
测试
/
训练
集中拆分原始文本
的
例子(我可能会使用tf-idf表示)。
浏览 0
提问于2014-09-12
得票数 9
回答已采纳
2
回答
验证与
测试
与
训练
的
准确性。我应该比较哪一个,因为我声称超适合?
、
、
、
我在这里
和
互联网上读到过几个答案,交叉验证有助于表明模型
是否
会泛化得很好,以及
是否
过于合适。我把我
的
数据分成70%
的
训练
和
30%
的
测试
。 当我运行10
倍
交叉验证,我可以得到10个准确性,我可以采取平均/平均。我该称这为v
浏览 0
提问于2019-03-13
得票数 13
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习的心腹大患:数据泄漏
机器学习入门——基本概念(2)
使用R建立一个K-NN分类模型
首尔国立大学:问答问题中基于大规模细粒度监督数据的迁移学习研究
机器学习学习笔记二
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券