腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
200多个
类
中高度
不平衡
的
数据
集
、
、
、
我有一个文本
数据
集
,在这里,我需要训练一个分类器来将标题分类。
数据
集
形状超过575000。这里有256个目标
类
。问题是
数据
集
是高度
不平衡
的
。考虑目标值计数是按递减顺序排列
的
。 为了处理
不平衡
的
数据
集
,
对
多
类
(比如3
类
)
进行
过
采样
和
欠
浏览 0
提问于2019-09-28
得票数 2
2
回答
用smote和OSS解决
多
类
不平衡
分类问题
、
、
我试图解决一个
多
类
不平衡
的
分类问题。为此,我使用SMOTE表示过
采样
,而OSS用于过
采样
.但我有一个疑问,因为我正在研究
多
类
,所以我必须把它转换成二进制分类。所以我们可以用OVA/OAA来转换它。那么,
如何
使用OVA/OAA同时
对
同一
数据
集
进行
过
采样
和
欠
采样
?
浏览 0
提问于2019-01-28
得票数 2
1
回答
多
类
不平衡
数据
集
的
抽样学习
、
、
、
我有一个
不平衡
的
数据
集
。我在找样本以下
的
。尽管过
采样
过程花费
的
时间较少,模型
的
训练却需要很长
的
时间。我看了一下
不平衡
-学习网站。有几种
欠
采样
方法。我正在寻找一种方法,它试图用尽可能
多
的
完整信息
对
类
进行
欠
采样
。我尝试了.ClusterCentroids()方法
浏览 0
提问于2019-04-19
得票数 2
回答已采纳
1
回答
在smote之后调整预测概率
、
、
、
我有一个
不平衡
的
数据
集
,我使用smote
对
少数
类
进行
过
采样
,而对多数
类
进行
欠
采样
。现在,我想使用模型
的
predict_proba检查测试AUC。2.我
如何
校正它(
欠
采样
和过
采样
的
组合!)
浏览 40
提问于2019-11-22
得票数 0
3
回答
平衡列车组预测
不平衡
预测
集
、
、
对
不平衡
集
进行
分类预测分析
的
方法之一是
对
多数
类
进行
欠
采样
(其他方法包括:
对
多数
类
进行
欠
采样
,合成新
的
少数
类
.)。 下面假设我们使用这些解决方案中
的
任何一个,然后用新生成
的
数据
集
来训练算法。这个经过训练
的
算
浏览 0
提问于2016-09-01
得票数 6
2
回答
不平衡
分类问题
的
k-折叠CV估计测试AUC
、
、
、
、
我有一个
不平衡
的
分类问题。然后,我使用R包ROSE同时
对
Dataset A中
的
多数
类
进行
了
欠
采样
,并
对
少数
类
进行
了过
采样
。这产生了一个平衡
集
(Dataset C),其行数与Dat
浏览 0
提问于2018-04-04
得票数 1
2
回答
处理多数
类
丢失
的
数据
、
、
、
我正在使用一个
不平衡
(10:1)
的
数据
集
进行
分类。我还在某些列中丢失了一些
数据
。如果我把它们全部丢弃,我仍然有5:1
的
比率,所以我想我有能力抛弃它们?丢弃缺少值
的
行,因为
数据
集
已经
不平衡
浏览 0
提问于2021-12-18
得票数 1
2
回答
如何
使用
Python
对
图像
数据
集
进行
过
采样
?
、
、
、
、
我正在研究一个具有
不平衡
图像
数据
集
(不同类)
的
多
类
分类问题。我尝试过imblearn库,但它不适用于图像
数据
集
。 我有一个三
类
的
图像
数据
集
,即A,B,C。A有1000个
数据
,B有300个,C有100个。我想
对
B
类
和C
类
进行
过
采样
,以避免
数据
不平衡</
浏览 2
提问于2018-01-30
得票数 3
1
回答
如何
在Kaggle (
python
)上增加RAM大小?
、
、
、
我正在使用图像
数据
集
,但它
的
不平衡
和我
的
工作,以解决它使用
欠
采样
,但它需要更多
的
内存,
如何
才能节省内存,或
如何
才能与大型图像
数据
集
需要重
采样
(
不平衡
图像
数据
集
)和需要内存大17 GB
的
python
语言,
浏览 85
提问于2021-09-19
得票数 0
1
回答
如何
使用
Python
中
的
"imblearn“库
对
两个以上
类
的
数据
进行
欠
采样
/过
采样
?
、
、
、
、
我
的
数据
集中有四个
类
,每个
类
有20、30、40和50个
数据
(因为它是一个
不平衡
的
类
)。但是,当我尝试使用"fit_resample(X,y)“对
数据
集
进行
欠
采样
时,它只对第一个和最后一个
类
进行
了
欠
采样
。 有什么办法可以用"imblearn“
对
这四个
浏览 4
提问于2020-05-31
得票数 0
回答已采纳
1
回答
python
中MLP分类器中
的
不平衡
数据
集
、
、
、
我正在处理
不平衡
的
数据
集
,我试图建立一个使用MLP分类器
的
预测模型。不幸
的
是,该算法将所有观察值从测试
集
分类到"1“
类
,因此分类报告中
的
f1评分和回忆值为0。有人知道怎么处理吗?
浏览 0
提问于2017-06-18
得票数 8
回答已采纳
3
回答
Xgboost处理
不平衡
分类
数据
、
我有一个大约20000个训练样本
的
数据
集
,我想
对
其
进行
二进制分类。问题是
数据
集
严重
不平衡
,只有大约1000个属于正
类
。我正在尝试使用xgboost (in R)来做我
的
预测。我尝试过过
采样
和
欠
采样
,无论我做什么,不知何故,预测总是导致将所有东西归类为多数
类
。 我试着阅读了这篇关于
如何
在xgboost中调优参数
的
浏览 2
提问于2016-12-05
得票数 8
回答已采纳
2
回答
我应该重新整理
数据
集
吗?
、
我拥有的
数据
集
是由路径名组成
的
一些文本
数据
。我正在使用TF-国防军向量器和决策树。
数据
集中
的
类
严重
不平衡
。有几个大类
的
样本数超过500个,而其他一些小
类
的
样本数少于100个。有些甚至更小(不到20)。这是实际收集
的
数据
,因此模型在实际实现中看到次要
类
的
可能性也很小。我现在遇到
的
问题是,模型大部分时间预测小班为主
浏览 0
提问于2021-07-14
得票数 0
1
回答
Python
中
不平衡
类
的
欠
采样
、
、
我目前有超过80万个
数据
点
的
不平衡
数据
集
。这种
不平衡
是严重
的
,因为这两个
类
中只有3719个
数据
点。在使用
Python
中
的
NearMiss算法对
数据
进行
欠
采样
并应用随机森林分类器时,我可以获得以下结果: 特异性: 83.4%然而,当在完全
数据
浏览 10
提问于2019-11-14
得票数 0
回答已采纳
1
回答
使用xgboost处理极端
不平衡
问题
、
我
的
训练
数据
具有极
不平衡
的
类
{0:8725,1:3335},具有100个特征。(0:1),colsample_bytree:(0.5,1),λ:(0,10),alpha:(0,10),scale_pos_weight:(1,262),n_estimator:(1,20)}范围内
对
模型
进行
超调优然而,当我
对
测试
数据
实施该模型时,我得到
的
分数只有Roc_auc: 75.2%,pr_auc: 15%,log_loss: 0
浏览 6
提问于2021-02-27
得票数 0
1
回答
如何
对
不平衡
的
多
类
数据
集
进行
欠
采样
?(
Python
)
、
、
、
我有一个
不平衡
的
数据
集
,有5个
类
。现在,我希望
对
其
进行
欠
采样
,以使其更加平衡。但是我找不到解决这个问题
的
代码,只针对二进制
类
的
问题。 有没有人有示例代码?
浏览 6
提问于2020-05-20
得票数 0
1
回答
如果
数据
集
在现实生活中是
不平衡
的
,我是否应该在
不平衡
的
数据
集
上
对
我
的
机器学习模型
进行
培训?
、
、
我有一个
数据
集
,其中大约20%
的
数据
是正
类
,80%
的
数据
是负
类
。当我在平衡
数据
集
上对分类器
进行
欠
采样
和训练,并在平衡
数据
集
上
进行
测试时,结果非常好。但是,如果我在平衡
数据
集
上
进行
培训,并在复制现实世界(80-20分离)
的
不平衡</e
浏览 0
提问于2020-01-21
得票数 1
回答已采纳
1
回答
如何
使用
Python
中
的
"imblearn“库为每个
类
指定精确
的
欠
采样
/过
采样
数量?
、
、
、
、
我正在使用"imblearn“库
进行
欠
采样
。我
的
数据
集中有四个
类
,每个
类
有20、30、40和50个样本
数据
(因为它是一个
不平衡
的
类
)。选择这些样本数是为了方便地描述问题,这些样本数在实际应用中并不是有效
的
数量。 我想
对
每个有10个样本
数据
的
类
进行
欠
采样</e
浏览 28
提问于2020-06-01
得票数 1
回答已采纳
1
回答
如何
在
Python
中
进行
欠
采样
,使类别0
的
输入占输入
的
25%,而类别1不发生变化?
、
、
我在
Python
中有
不平衡
的
数据
集
,比如:0
的
95%和1
的
5%。
如何
进行
欠
采样
以将零
的
数量减少到只有25%
的
输入
数据
集
?我问你是因为在互联网资源上我只看到未解
采样
的
代码,这导致我
的
数据
集
是平衡
的
50%
的
浏览 36
提问于2021-07-06
得票数 0
回答已采纳
3
回答
不平衡
类
问题
、
我有一个包含4个
类
的
数据
集
,其实例数如下:第1
类
: 82第3
类
: 121
欠
采样
: CondensedNearestNe
浏览 0
提问于2017-05-04
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
过采样与欠采样技术原理图解:基于二维数据的常见方法效果对比
机器学习中的数据不平衡解决方案大全
当训练样本不平衡时还怎么学习
机器学习中样本不平衡处理办法
Python数据分析中如何对符合条件的数据进行标注
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券