Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >什么时候应该对数据进行过采样?

什么时候应该对数据进行过采样?
EN

Data Science用户
提问于 2021-09-07 10:51:56
回答 1查看 347关注 0票数 3

我在处理多类分类器。我的数据不平衡。因此,我需要在培训前应用抽样技术(抽样过少或过抽样)。当我申请低采样时,lossval_loss,以及accval_acc都表现出很好的适应性。在这种情况下,是否仍有必要对数据进行过采样?我应该期待什么结果?

EN

回答 1

Data Science用户

发布于 2021-09-08 09:44:42

我要考虑重采样数据的唯一情况是,需要改进对特定类的召回。因此,目标将是迫使分类器更经常地预测这个类,即使它通常意味着降低总体性能。

重采样是一种简单的方法,但很少是最优的方法。一般来说,我首先会分析分类器的错误,可能会考虑替代设计和/或特征工程。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/101879

复制
相关文章
过采样系列一:采样定理与过采样率
数字世界是现实世界的镜像,模数转换器ADC则是连接这两个世界的大门。采样速率是ADC重要参数之一,围绕采样速率,有一条著名的定理:奈奎斯特采样定理。
工程师看海
2022/06/23
2.4K0
过采样系列一:采样定理与过采样率
使用遗传交叉算子进行过采样处理数据不平衡
除了随机过采样,SMOTE及其变体之外,还有许多方法可以对不平衡数据进行过采样。 在使用scikit-learn的make_classification默认设置生成的分类数据集中,使用交叉操作生成的样本在最相关的指标上胜过SMOTE和随机过采样。
deephub
2021/01/12
7680
使用遗传交叉算子进行过采样处理数据不平衡
过采样系列三:量化误差与过采样率
数字世界是模拟世界的镜像,而ADC就是连接两个世界的大门。一切模拟信号一旦经过ADC离散化后,其幅值必然会失真,其重要原因是ADC分辨率有限,只能逼近真实幅值。
工程师看海
2022/06/23
1K0
过采样系列三:量化误差与过采样率
使用Imblearn对不平衡数据进行随机重采样
我们希望为模型准备或分析的数据是完美的。但是数据可能有缺失的值、异常值和复杂的数据类型。我们需要做一些预处理来解决这些问题。但是有时我们在分类任务中会遇到不平衡的数据。因为在我们的生活中,数据不可能是平衡的,这种不平衡的情况非常常见而且需要进行修正。
deephub
2021/04/16
3.8K1
过采样和欠采样_欠采样有几种情况
1、对基带信号进行欠采样是无法从采样信号中恢复出原始信号的,因此基带信号的采样都是过采样。
全栈程序员站长
2022/11/01
4.3K0
什么时候应该使用volatile
volatile 修饰符告诉编译程序不要对该变量所参与的操作进行某些优化。在两种特殊的情况下需要使用volatile 修饰符:第一种情况涉及到内存映射硬件(memory-mapped hardware,如图形适配器,这类设备对计算机来说就好象是内存的一部分一样),第二种情况涉及到共享内存(shared memory,即被两个以上同时运行的程序所使用的内存)。
杨源鑫
2019/07/22
2.1K0
什么时候应该用cdn
导语:这篇文章面向是cdn的首次使用者,什么叫首次使用者,就是对cdn完全不了解,对http也不怎么了解的同学。那么大神的读者,也希望您能瞄一下小弟的文章,看看有什么有问题的地方
我是小护士的小亮子
2018/07/09
6.8K3
什么时候应该用cdn
处理不平衡数据的过采样技术对比总结
在不平衡数据上训练的分类算法往往导致预测质量差。模型严重偏向多数类,忽略了对许多用例至关重要的少数例子。这使得模型对于涉及罕见但高优先级事件的现实问题来说不切实际。
deephub
2023/12/28
1K0
处理不平衡数据的过采样技术对比总结
什么时候应该听取机器决定?
导 读 更聪明和更具适应能力的机器正像网络一样迅速成为我们生活的一部分。我们会把更多的决策交给从数量和种类不断增加的数据中学习的智能算法。 这些“机器人”成为人们生活不可或缺的一部分,而我们没有任何框架去评估哪些决策应该委派给程序,哪些人类应该自己作决策。涉及到高风险,这真是奇怪。 在这里,我推荐一种风险导向框架去判断何时与如何在人与机器之间分配决策问题。这个框架是基于我和伙伴们在过去的25年中对于金融,保健,教育,运动等多个领域的预测系统的使用经验发展而来。 该框架依靠两个维度区分事件:可预测性和错误成
大数据文摘
2018/05/22
5590
过采样系列4:实例介绍(终篇)
这应该是过采样系列的最后一篇文章,经常有同学在使用FPGA、单片机或者DSP进行过采样时没有正确设计代码,导致结果异常,有些结果看似正常,而实际却没有意义。
工程师看海
2022/06/23
4920
过采样系列4:实例介绍(终篇)
什么时候才应该使用HBase?
在使用HBase一定要明白HBase的适用场合,因为HBase并非适用于每种情况。 首先,要确认有足够多的数据存入HBase。 如 果有几亿或者几十亿条记录要存入HBase,那么HBase就是一个正确的选择;否则如果你仅有几百万条甚至更少的数据,那么HBase当然不是正确的选 择,这种情况下应当选择传统的关系型数据库,因为如果这么少的数据存入HBase,就会导致数据堆积在一两个节点上,而HBase集群内部的其他节点都处 于空闲状态。 其次,要确认即便不使用传统关系型数据库提供的额外功能(比如数据库的列有强类
cloudskyme
2018/03/20
1.2K0
应该对 malloc 返回的值进行转换么
在这个 问题 里,有人在 评论 里建议不要对malloc返回的值进行转换。举个例子,
ClearSeve
2022/02/10
7610
dotnet 是否应该对 HttpResponseMessage 调用 Dispose 进行释放
对于 HttpClient 的请求响应值 HttpResponseMessage 来说,既然继承了 IDisposable 接口,自然就是想让大家可以通过 using 或者手动调用 Dispose 进行释放的。本文将来聊聊对 HttpResponseMessage 调用 Dispose 进行释放的意义有多大,有没有必要性的问题
林德熙
2023/07/24
4550
用Matlab对图像进行采样处理,在空间上分割网格。
1、点击[Matlab] 2、点击[命令行窗口] 3、按<Enter>键
裴来凡
2022/05/28
1K0
用Matlab对图像进行采样处理,在空间上分割网格。
过采样系列二:傅里叶变换与信噪比
傅里叶变换的提出让人们看问题的角度从时域变成了频域,多了一个维度。快速傅里叶变换算法的提出普及了傅里叶变换在工程领域的应用,在科学计算和数字信号处理等领域,离散傅里叶变换(DFT)至今依然是非常有效的工具之一。
工程师看海
2022/06/23
1.5K0
过采样系列二:傅里叶变换与信噪比
【学习】应该在什么时候使用Hadoop?
有人问我,“你在大数据和Hadoop方面有多少经验?”我告诉他们,我一直在使用Hadoop,但是我处理的数据集很少有大于几个TB的。 他们又问我,“你能使用Hadoop做简单的分组和统计吗?”我说当然可以,我只是告诉他们我需要看一些文件格式的例子。 他们递给我一个包含600MB数据的闪盘,看起来这些数据并非样本数据,由于一些我不能理解的原因,当我的解决方案涉及到pandas.read_csv文件,而不是Hadoop,他们很不愉快。 Hadoop实际上是有很多局限的。Hadoop允许你运行一个通用的计算,
小莹莹
2018/04/23
1.4K0
【学习】应该在什么时候使用Hadoop?
我应该在什么时候使用 Apache Druid
许多公司都已经将 Druid 应用于多种不同的应用场景。请访问 使用 Apache Druid 的公司 页面来了解都有哪些公司使用了 Druid。
HoneyMoose
2021/07/24
7300
我应该在什么时候使用 Apache Druid
到底什么时候不应该使用机器学习?
对于什么时候应该使用机器学习/AI,很多人都会迟疑和顾虑,而作者正是因为经历了种种顾虑后,将经验总结成这篇文章,文摘菌编译了这篇文章,希望大家能够减少顾虑,更好地与机器学习或AI一起畅享学习之旅。
大数据文摘
2020/06/17
6960
到底什么时候不应该使用机器学习?
学会知道在什么时候应该说“不”
你需要知道一个事实,这个事实在我打算成为一名程序设计师之前就存在了。你也看到了,程序员在如今是一门热门职业。你就像是舞会上最靓丽的女孩,所有人都想和你约会。各种企业想要你,因为你知道什么是SEO,怎么
小小科
2018/05/04
5860
学会知道在什么时候应该说“不”
数据库读写分离这个坑,你应该踩过吧?
每个支付通道支付失败的时候都会返回特定的错误码,业务内部需要将通道特定的错误码转义成内部的错误码,这样对外就可以统一返回我们自己的错误码。
huofo
2022/03/18
2070
数据库读写分离这个坑,你应该踩过吧?

相似问题

在哪一步应该使用击打技术进行过采样?

10

具有子类的过采样数据

20

not NC无助于对我的混合连续/分类数据集进行过采样。

10

多分类的过采样/欠采样

10

在对培训数据进行下采样的同时,我们是否也应该对验证数据进行降采样,还是保留现有的验证数据?

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档