腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7889)
视频
沙龙
1
回答
如
何在
训练
、
验证
、
测试
样本
中
选择
几乎
均匀分布
的
类
?
、
、
、
、
数据集中有24个不同
的
类
。但问题是,班级
的
分布千差万别。我对stratify=df['label']使用了sklearn.model_selection.train_test_split,但仍然有一些
类
有5%
的
数据,而另一些
类
有3%
的
数据。我如何让他们
选择
一个在
类
中分布在4%左右
的
数据。我
的
test_df有7172行和785列,其中一列是label列,其余
的
78
浏览 25
提问于2020-06-02
得票数 0
回答已采纳
2
回答
是什么使
验证
集成为
测试
集
的
良好代表?
、
、
、
如果不是,为什么会这样何时确定
验证
集是
测试
集
的
良好代表?这两个结果之间
的
差异应该在一定范围内吗?
类
不平衡是否影响
验证
结果
的</
浏览 0
提问于2020-09-29
得票数 0
回答已采纳
3
回答
如何为朴素贝叶斯分类器
选择
训练
数据
、
我想仔细检查一些我不确定
的
关于分类器学习
的
训练
集
的
概念。当我们为我们
的
训练
数据
选择
记录时,我们是为每个
类
选择
相等数量
的
记录,总和为N,还是应该随机
选择
N个记录(与
类
无关)?直觉上,我认为是前者,但认为前一
类
概率是相等
的
,并且没有真正
的
帮助?
浏览 0
提问于2011-07-05
得票数 5
1
回答
LIBSVM即使使用
训练
数据也无法准确预测
、
、
、
我有以下代码,它获取一组图像,每个
训练
集中大约50个图像,然后创建一个线性模型,并尝试对数据进行分类。我也有一个
测试
集,但它甚至不能准确地对
训练
数据进行分类。我加载图像
的
方式有什么错误吗?如果有帮助的话,我很乐意提供更多
的
代码或我
的
输出。svm_predict([1]*len(testing_set), testing_set, sunflower_model_linear, "-b 1") 当我运行这个程序并运行一些精度测量时,最后一个数据集
的
准确
浏览 4
提问于2014-04-27
得票数 0
1
回答
小批量梯度下降是否消除了分层对
训练
数据集
的
影响?
、
、
在数据预处理
中
,使用分层洗牌确保原始数据集
的
分布反映在培训、
测试
和
验证
数据集中。 小型批处理梯度下降使用随机洗牌来确保小批
中
的
随机性.我
的
疑问是-为什么我们应该在我们
的
数据集上执行分层洗牌,如果它要在
训练
期间以随机
的
方式被洗牌?
浏览 0
提问于2020-08-08
得票数 2
回答已采纳
1
回答
在交叉
验证
中
,weka是否平衡了跨
类
的
训练
/
测试
集?
、
、
当我对m
类
执行n折交叉
验证
时,在每一折
中
,
训练
集和
测试
集是否平衡?所谓平衡,我
的
意思是问,是否有(
几乎
)相同
的
样本
集,从每个类别的火车和
测试
集。
浏览 8
提问于2013-01-31
得票数 0
1
回答
正确拆分数据集
、
我已经下载了一个包含10个
类
对象
的
数据集,用于对象检测。数据集不分为培训、
验证
和
测试
。然而,作者在论文中提到,将数据集划分为20%
的
训练
,20%
的
验证
,60%
的
测试
和图像是随机
选择
的
。按照作者所说
的
标准,我随机
选择
了20%
的
图像进行
训练
,20%
的
图像进行
验证
,60%
的
浏览 5
提问于2016-11-26
得票数 0
回答已采纳
1
回答
交叉
验证
+早期停止是否显示了小
样本
的
实际性能?
、
、
我正在进行一些模拟,我
的
样本
大小是125。我测量了5倍
的
交叉
验证
误差,即每轮我
的
训练
样本
大小为100,
测试
样本
大小为25。假设所有其他参数都是固定
的
,但"n_estimators",即助推轮
的
数量。我有两个
选择
: 在这种情况下,我可以从cv results;further中
选择
最佳
的
n_estimator,将
训练</e
浏览 1
提问于2019-10-12
得票数 0
回答已采纳
1
回答
训练
和
测试
数据拆分后,是否需要
验证
数据集
的
IID,并对相同
的
分布进行统计检验?
、
、
、
、
我知道大多数机器学习算法都是基于输入数据是IID(独立同分布)
的
假设。因此,我们通常不会执行统计
测试
来比较
测试
和
训练
数据
的
统计数据。
训练
和
测试
数据拆分后,是否需要
验证
I
浏览 0
提问于2020-01-10
得票数 1
1
回答
特征
选择
在增强方法
中
的
重要性
、
、
虽然显然可以根据重要性对功能进行排序,许多机器学习书籍给出了如何做到这一点
的
随机森林示例,但不太清楚在哪些情况下应该这样做。添加更多
的
特性并不总是更好(如果没有时间限制
的
实际问题)。
浏览 0
提问于2016-04-07
得票数 5
回答已采纳
2
回答
不平衡数据集
的
交叉
验证
模式
、
、
、
基于以前
的
帖子,我理解在使用不平衡数据集
训练
二进制分类模型时,需要确保CV过程
中
的
验证
折叠具有与原始数据集相同
的
不平衡分布。我
的
问题是关于最好
的
训练
模式。另外,让我们假设我将提供一个随机
的
100 K
样本
进行
测试
(90K
样本
w/ pos
类
与10K
样本
w/ neg
类
)。现在我有两个
选择<
浏览 0
提问于2020-06-16
得票数 1
1
回答
使用Spacy进行命名实体识别的交叉
验证
、
、
、
我正在尝试在5000万个
样本
上
训练
一个自定义
的
NER模型。我正在使用20次迭代
的
进行建模。我想知道我是否应该使用交叉
验证
来获得更准确
的
样本
准确性。如果是,那么交叉
验证
步骤应该在哪里进行?如果没有,那么我如何拆分/分发我
的
训练
和
测试
数据,因为我正在使用注释和6个自定义实体,并且很难跟踪每个
训练
和
测试
数据
中
带注释
的
标签<e
浏览 3
提问于2019-08-01
得票数 1
1
回答
在特征
选择
之前或之后采样
、
、
、
我对特征
选择
、采样和交叉
验证
的
顺序感到困惑,我
的
数据集有468行和23000列,其中269个属于I
类
,199个属于II
类
,当拆分
训练
和
测试
时,
训练
.Due
中
的
数据有215个I
类
和159个II
类
,以减少
样本
数量我不得不对
训练
数据应用或者我应该在这里应用采样,这会导致数据丢失,从而导致更小
的
样本
。
浏览 133
提问于2020-08-12
得票数 1
2
回答
python-分割数据以获得高精度数据
的
最佳技术
、
、
、
、
我采用了以下4种方法: 我想知道我应该
选择
哪种方法?
浏览 6
提问于2019-11-17
得票数 0
2
回答
Logistic回归和Iris数据集在ROC AUC评分
中
的
应用
、
、
、
我需要
的
是: 从他
的
想法和方法上,我简单地改变了我获得原始数据
的
方式: filepath_or_buffer='https://archive.ics.u
浏览 0
提问于2019-05-02
得票数 7
回答已采纳
1
回答
初始化神经网络模型kfold
、
、
、
这是否意味着模型对第一个折叠进行
训练
,而这个具有
训练
权重
的
模型被用于第二个折叠,依此类推?如果最后一个折叠不好,整个模型都不好怎么办?
浏览 22
提问于2019-11-14
得票数 0
回答已采纳
1
回答
自动深度学习系统模型
的
验证
、
、
如何
选择
一个自动化系统用于评估经过培训
的
模型
的
验证
集,以确保每一种新模型至少与以前
的
模型一样好,或者更好? 让我们说,在这种情况下,我们有一个回归问题,我们可以依赖于一个单一
的
性能指标,
如
RMSE。我正在开发一个程序,自动
训练
,
测试
,如果
测试
通过,每x个新
的
数据
样本
/时间部署一个新
的
深入学习模型。每一次
训练
都是在原始数据集(标记数据)和
浏览 0
提问于2018-05-23
得票数 3
2
回答
scikit了解用于交叉
验证
的
不平衡数据
的
欠采样
、
、
如
何在
scikit-learn中生成用于交叉
验证
的
随机折叠?假设我们有一个
类
的
20个
样本
,另一个
类
的
80个
样本
,我们需要生成N个
训练
集和
测试
集,每个
训练
集
的
大小为30,在每个
训练
集中,我们有50%
的
类
1和50%
的
类
2。
浏览 3
提问于2013-12-21
得票数 6
2
回答
Scikit-learn
中
随机森林
训练
前
的
预随机化
、
、
由于对
训练
集进行了预随机化,我使用sklearn.ensemble.RandomForestClassifier获得了令人惊讶
的
显着性能提升(交叉
验证
精度增益+10%)。这对我来说非常令人费解,因为(a) RandomForestClassifier假设无论如何都会对
训练
数据进行随机化;以及(b)为什么示例
的
顺序如此重要? 有什么好
的
建议吗?
浏览 1
提问于2016-02-16
得票数 0
1
回答
分类猫与非猫
的
神经网络
训练
集
、
、
、
、
是否有可能建立一个卷积神经网络(使用Keras,Tensorflow),它可以为猫
的
图像提供1
的
输出,为其他一切提供0
的
输出? 这不意味着我们应该有无限数量
的
训练
<
浏览 0
提问于2020-07-09
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习中的模型评价、模型选择及算法选择
深度学习任务如何解决非平衡数据问题
深度学习任务面临非平衡数据问题?试试这个简单方法
距离产生美?k近邻算法python实现
机器学习学习笔记二
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券