腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3549)
视频
沙龙
1
回答
对于
不平衡
的
数据
集
,使
用过
采样
技术
还是
欠
采样
技术
更好
?
、
、
、
我有一个
数据
集
不平衡
的
二进制分类问题,我不知道在
欠
采样
和过
采样
之间使用什么!!
浏览 16
提问于2019-10-18
得票数 0
1
回答
应用
欠
采样
技术
训练和测试
数据
、
我知道,如果您执行某种转换,并且使用fit(),那么您必须同时转换()训练
集
和测试
集
。 假设您对培训
数据
应用了有针对性
的
欠
采样
技术
(如TomekLinks ),以使模型能够
更好
地识别\单独
的
类。问题:如果要使用该模型对测试
集
进行预测,是否也对测试
集
执行相同
的
欠
采样
技术
,
还是
仅在培训
集
上使用<e
浏览 0
提问于2021-11-04
得票数 1
回答已采纳
2
回答
我们能为分类做两种不同
的
模型吗?
、
、
、
假设我有一个二进制分类问题,而我
的
数据
是
不平衡
的
,我可以使用任何算法建立一个分类模型,并使
用过
采样
或
欠
采样
技术
来处理类
的
不平衡
。 如果我要独立地建立两个独立
的
模型,每个模型只为一类
数据
训练。这会是正确
的
做法吗?
浏览 0
提问于2018-08-09
得票数 0
1
回答
使用xgboost处理极端
不平衡
问题
、
我
的
训练
数据
具有极
不平衡
的
类{0:8725,1:3335},具有100个特征。然而,当我对测试
数据
实施该模型时,我得到
的
分数只有Roc_auc: 75.2%,pr_auc: 15%,log_loss: 0.046,以及混淆矩阵:[19300 7,103 14]。我需要帮助找到最好
的
方法来增加真阳性约60%
的
耐受性假阳性,直到实际阳性
的
3倍。
浏览 6
提问于2021-02-27
得票数 0
2
回答
我应该重新整理
数据
集
吗?
、
我拥有的
数据
集
是由路径名组成
的
一些文本
数据
。我正在使用TF-国防军向量器和决策树。
数据
集中
的
类严重
不平衡
。有几个大类
的
样本数超过500个,而其他一些小类
的
样本数少于100个。有些甚至更小(不到20)。这是实际收集
的
数据
,因此模型在实际实现中看到次要类
的
可能性也很小。我现在遇到
的
问题是,模型大部分时间预测小班为主修班,
使
我
的
准确率
浏览 0
提问于2021-07-14
得票数 0
3
回答
列车组和测试组
的
不平衡
数据
、
、
、
我已经有两个
数据
集了。一个用于训练,另一个用于测试。这两个
数据
集
都是
不平衡
的
(百分比相似),大约有90%
的
标签1。如果测试
集
是非常
不平衡
的
,那么平衡
数据
会有用吗?标签0
的
实例(即10%)仍然足够。如果有必要的话,我最终会使
用过
度抽样。我
的
是一个tripAdvisor审查
数据
集
,在这种情况下最好
的
技术</
浏览 0
提问于2023-03-08
得票数 2
1
回答
python中MLP分类器中
的
不平衡
数据
集
、
、
、
我正在处理
不平衡
的
数据
集
,我试图建立一个使用MLP分类器
的
预测模型。不幸
的
是,该算法将所有观察值从测试
集
分类到"1“类,因此分类报告中
的
f1评分和回忆值为0。有人知道怎么处理吗?
浏览 0
提问于2017-06-18
得票数 8
回答已采纳
3
回答
200多个类中高度
不平衡
的
数据
集
、
、
、
我有一个文本
数据
集
,在这里,我需要训练一个分类器来将标题分类。
数据
集
形状超过575000。这里有256个目标类。问题是
数据
集
是高度
不平衡
的
。
对于
目标X1,它有171793条记录,X2有101575条,Xn -1有2条,Xn有2条。考虑目标值计数是按递减顺序排列
的
。 为了处理
不平衡
的
数据
集
,对多类(比如3类)进行过
采样
和
欠
浏览 0
提问于2019-09-28
得票数 2
3
回答
在
数据
集
上应用随机过
采样
的
时间
、
、
、
、
我翻阅了笔记本
的
乳腺癌- EDA,平衡和ML。在这个笔记本中,Random Oversampling已经实现。然而,当该人进行过度抽样时,他会在整个
数据
集
上进行。我知道过
采样
只能应用于训练
数据
集
。在我
的
例子中,在将
数据
分割成训练和测试
集
之后,我对训练
数据
进行了过度
采样
。精确性,以及我所得到
的
回忆都不如Kaggle笔记本好。avg 0.80 0.79
浏览 0
提问于2022-09-05
得票数 4
2
回答
如何在交叉验证中使
用过
采样
的
数据
?
、
、
、
我有一个
不平衡
的
数据
集
。我正在使用SMOTE (合成少数人抽样
技术
)来执行过
采样
。在执行二进制分类时,我在这个过
采样
的
数据
集
上使用10倍交叉验证。然而,我最近研究了这篇文章;提到在交叉验证期间使
用过
采样
数据
集
是不正确
的
,因为它会导致性能评估过于乐观。 我要验证正确
的
方法/过程,即在交叉验证中使
浏览 2
提问于2018-03-27
得票数 2
回答已采纳
1
回答
如何在非平衡
数据
的
二分类问题中选择合适
的
神经网络?
、
但是我
的
数据
是
不平衡
的
。我有2个特征列和1个输出列(1/0)。我有10000
的
数据
。在输出1中只有20个结果中,所有其他结果都是0。然后我将
数据
大小扩展到40000。由于
数据
是
不平衡
的
(0支配1),哪个神经网络更适合进行正确
的
预测?
浏览 0
提问于2018-11-01
得票数 0
1
回答
数据
少、稀疏、
不平衡
时
的
特征选择
、
、
、
当我有较少、稀疏和
不平衡
的
数据
时,有什么方法来选择这些特性吗?特征数量:200个样本数:约1000个
浏览 1
提问于2017-02-01
得票数 0
1
回答
提高高度
不平衡
数据
集
的
精度
、
我需要一些建议来提高我
的
模型
的
准确性。📷此
数据
集
高度
不平衡
。0 159730 我试过抽样了。y_train)0 159730 最后,我使用XGBClassifier对模型进行了拟合,但是当在测试
数据<
浏览 0
提问于2019-04-21
得票数 1
1
回答
LibSVM
的
降
采样
技术
、
我有一个
不平衡
的
训练
数据
,我将使用它来训练SVM分类器。我已经尝试了几种处理
不平衡
数据
的
技术
,例如对成本敏感
的
学习和
采样
技术
。
对于
采样
技术
,我需要找到向上
采样
和向下
采样
的
方法,而不是随机方法。可用于上
采样
和下
采样
的
技术
有哪些?我使用weka
浏览 3
提问于2014-12-10
得票数 0
3
回答
平衡列车组预测
不平衡
预测
集
、
、
对
不平衡
集
进行分类预测分析
的
方法之一是对多数类进行
欠
采样
(其他方法包括:对多数类进行
欠
采样
,合成新
的
少数类.)。 下面假设我们使用这些解决方案中
的
任何一个,然后用新生成
的
数据
集
来训练算法。这个经过训练
的
算法是否有助于预测来自这个系统
的
进一步
数据
,而这个系统通常是
不平衡
的
?或者说,为了
使
浏览 0
提问于2016-09-01
得票数 6
3
回答
对于
分类问题,对
数据
集
进行分割
的
正确步骤是什么?
、
、
、
我有一个大小为(302, 100, 5)
的
数据
集
,(95,100,5)属于class 1.我想使用LSTM执行分类(从,序列
数据
) 由于这些类没有相同
的
分布
集
,我如何分割用于培训
的
数据
集
?在训练前有什么
更好
的
分割方法,这样我就能在减少损失、准确预测、预测等方面取得
更好
的
效果。For reference,正如您在上面看到<
浏览 0
提问于2019-07-22
得票数 0
回答已采纳
1
回答
不平衡
的
学习问题-样本外与验证
、
我正在训练三个班级,其中一个占主导地位
的
班级约占80%,其他两个班级甚至。我能够使用
欠
采样
/过
采样
技术
来训练模型,以获得67%
的
验证准确率,这
对于
我
的
目的来说已经相当不错了。问题是这种性能只存在于平衡
的
验证
数据
上,一旦我用
不平衡
的
数据
对样本外进行测试,它似乎就偏向于甚至类预测。我也尝试过使用加权损失函数,但在样本之外也没有什么乐趣。有没有好
的</
浏览 6
提问于2019-07-10
得票数 0
1
回答
如果功能
的
值几乎是恒定
的
,会发生什么?
、
、
在流行病学
数据
集
的
问题中,是否需要保留具有几乎恒定值
的
特性?例如,在这个特性中,type_of_residence大
的
占97 %,小
的
占2.7 %。保留这个功能可以吗?我
的
目标变量是病人
的
结果,而这个
数据
集
是
不平衡
的
。就像类
不平衡
问题中
的
过
采样
和
欠
采样
技术
一样,ML中是否存在
浏览 0
提问于2021-01-05
得票数 0
回答已采纳
1
回答
SMOTETomek -如何将比率设置为固定余额字典
、
、
、
我尝试使用这种
技术
来纠正非常
不平衡
的
类。我
的
数据
集
有类,例如:data['CON_CHURN_TOTAL'].value_counts() 0 100Name: CON_CHURN_TOTAL当然,在完整
的
代码中,80:20
的
比率将根据行数计算。当我试图:smt = SMOTETom
浏览 2
提问于2018-09-25
得票数 5
回答已采纳
1
回答
平衡XGboost仍然倾向于多数类
、
、
、
对于
多类分类,我有
不平衡
的
数据
集
,我尝试在XGboost中使用类权重选项,而分类器仍然倾向于支持大多数类。我不确定我是否需要调整其他
的
东西,或者我应该如何处理这个问题。如果阿尔戈预测
的
地方到处都是,我仍然能理解,但不确定为什么它仍然偏向于多数阶级。有什么指示吗? 更新:我
的
意思是大部分
的
预测仍然是针对主修班
的
,在测试和训练中,这个比例大约是30%。
浏览 0
提问于2019-03-11
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
处理不平衡数据的过采样技术对比总结
过采样与欠采样技术原理图解:基于二维数据的常见方法效果对比
处理不平衡数据的技巧总结
处理不平衡数据的技巧总结!
当训练样本不平衡时还怎么学习
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券