Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在火车测试分裂之前,是否有任何理由来执行撞击-ENN?

在火车测试分裂之前,是否有任何理由来执行撞击-ENN?
EN

Data Science用户
提问于 2023-06-02 03:43:01
回答 2查看 28关注 0票数 0

我创建了一个预测数据的分类模型,问题是这两个类是高度不平衡的。

我有个问题。我创建了一个预测数据的分类模型,问题是这两个类是高度不平衡的。所以,我用SMOTE+ENN技术来处理它。在将数据分成训练集和测试集之前,我应用了SMOTE+ENN。原因是SMOTE生成合成数据来平衡类。我认为在拆分数据之前执行SMOTE+ENN将为数据创建一个有代表性的状态。

目前,我正在为一篇期刊文章进行研究,我无法修改模型。我唯一能做的就是在分割培训和测试数据之前对为什么执行SMOTE+ENN提供支持性的研究或推理。你能帮我提供一些支持这种方法的论据或理由吗?

例如:我能否提供以下理由:“在拆分数据之前执行SMOTE+ENN仍然是有效的,因为它的目标是通过与原始数据相似但具有不同统计值的平滑生成合成数据,从而在数据集中创建更平衡的情况。这意味着将引入新的数据点。同时,ENN有助于减少接近少数类的样本的冗余。我还设置了参数,使数据只增加10%,减少了10%,这是一个极小的变化。因此,模型的性能保持相对不变,模型评估的解释仅略有变化。”

EN

回答 2

Data Science用户

发布于 2023-06-02 04:41:33

在分裂之前,你不应该使用SMOTE。它有两个大问题:

  1. 在测试集中添加合成数据将改变数据的分布,而您所测量的度量标准将无法代表真实分布。
  2. 它将引入一个数据泄漏。SMOTE将基于整个数据集创建数据,这意味着模型的培训数据包括有关测试数据的信息。

因此,我不会试图使它合理化,而是试图解决这个问题。

票数 0
EN

Data Science用户

发布于 2023-06-02 07:29:26

不幸的是,我们无法真正找到一个合适的理由,因为这个过程是错误的。然而,在不平衡的数据中,这是一个常见的误解。重采样方法只应应用于培训分区,测试集必须保持不变,直到最终验证为止。看一下这篇论文,它对问题进行了全面和全面的评估,评估了在进行拆分之前和之后(包括使用SMOTE)的效果。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/121921

复制
相关文章
传统 for 循环的函数式替代方案
在 Java 语言的第 1 个版本中就开始引入了传统的 for 循环,它的更简单的变体 for-each 是在 Java 5 中引入的。大部分开发人员更喜欢使用 for-each 执行日常迭代,但对于迭代一个范围或跳过范围中的值等操作,他们仍会使用 for。
IT小马哥
2020/03/18
3K0
Java 中for循环和foreach循环哪个更快?
在Java编程中,循环结构是程序员常用的控制流程,而for循环和foreach循环是其中比较常见的两种形式。关于它们哪一个更快的讨论一直存在。本文旨在探究Java中的for循环和foreach循环的性能差异,并帮助读者更好地选择适合自身需求的循环方式。通过详细比较它们的遍历效率、数据结构适用性和编译器优化等因素,我们将为大家揭示它们的差异和适用场景,以便您能够做出更明智的编程决策。
葡萄城控件
2023/10/16
7500
Java 中for循环和foreach循环哪个更快?
onpropertychange替代方案[通俗易懂]
大家好,又见面了,我是你们的朋友全栈君。 onpropertychange替代方案
全栈程序员站长
2022/08/01
1.4K0
Base:Acid的替代方案
作者:DAN PRITCHETT 译者:java达人 来源:https://queue.acm.org/detail.cfm?id=1394128(点击阅读原文前往) 在数据库分区中,以一致性换取可
java达人
2018/03/26
2.4K0
Base:Acid的替代方案
Web 框架的替代方案
在本系列第二部分中,Noam 提出了一些模式,说明如何直接用 Web 平台作为框架提供的一些解决方案的替代方案。
深度学习与Python
2022/04/19
2.7K0
Hugo .GitInfo 的替代方案
今天有人问我博客页脚 footer 里的 git hash 是怎么显示的,就是页面底部里的 69d6ffe 这一串数字。
eallion
2022/12/20
1.9K0
Hugo .GitInfo 的替代方案
探讨if...else的替代方案
假设我们要做一个计算器,实现加减乘除的需求。使用if...else...语句实现代码如下:
互联网金融打杂
2022/08/01
2.3K0
探讨if...else的替代方案
Flutter 中FlatButton的替代方案
最新版本的Flutter已将FlatButton标记为过时,我们可以使用 TextButton 或 ElevatedButton 来进行替代,FlatButton 与替代组件的参数会有差异。
xiangzhihong
2023/07/09
7710
企业用途的 V** 替代方案
虚拟专用网络 (VPN) 是最常用的远程网络连接解决方案之一。但是,它有许多限制,会对网络性能和安全性产生负面影响。使用更专业的远程解决方案替代 VPN ,可以提高安全性,同时还可以提高远程访问的质量和远程工作人员的工作效率。
Loki
2023/01/10
2.3K0
企业用途的 V** 替代方案
循环结构 if语句我替代语法
通过这两者的比较,我得出了一个结论,就是while是符合条件在执行语句,do while是先执行在判断是否符合条件 这两个都一样,但是while就像我想结婚了,所以我去求家长父母的同意是吧,他们同意了我和李文的婚事我们才能结婚,但是do while就有点不同了,他是私奔了呀,先结婚然后在慢慢跟各方家长说,家长同意了就行了一样的啦 问题:为什么都是执行10次,因为do while那里是$i++到10了啊就不符合条件了啊,所以才10次啊,像是我明天要给你十块钱,我不管你今天你花钱欠账明天再给商家也好,还是明天在花也好,就十块哈,一分也没有,就十块.do while就像是先花了,while就像是给再花哈哈哈哈,
贵哥的编程之路
2020/10/28
3640
循环结构 if语句我替代语法
break-跳出内循环
i = 1 j = 1 while i <= 10: print('第%d个碗' % i) while j <= 10: if j == 5: break else: print('这是内循环的第%d个碗' % j) j += 1 i += 1
汪凡
2018/05/29
8130
加油站智能视频监控系统方案
加油站智能视频监控系统方案利用加油站现场的已经装好的监控摄像头对加油站进行打电话识别、抽烟识别、明火烟雾识别、车辆识别。除此之外,加油站智能视频监控系统方案还可以对汽油静电释放检测、灭火器摆放识别、玩手机识别。有益于加油站安全隐患的管理把控,从根源上降低与分析安全隐患的主要原因,提升管控效率。
燧机科技
2022/10/03
6350
加油站智能视频监控系统方案
内拐角的铣削方案
利用编程半径 (圆弧铣) 来减少接触弧及径向切宽以减少振动趋势,从而在铣削内拐角时实现更大的切深和更高的进给率。
lrglu
2022/03/30
9100
内拐角的铣削方案
Electron中remote模块的替代方案
在Electron12时候被废弃,使用必须配置enableRemoteModule
码客说
2023/09/14
2.1K0
替代Websocket的解决方案:GoEasy
GoEasy这个库的适用场景:同Websocket的场景 在后台使用例如Java进行逻辑处理后将变量的值传入前台,前台不用发起请求即可接收后台发布的数据, 整个流程与Redis的Pub和Sub过程类似 整个交互类似Socket的长连接,前台首次调用不需要请求后台。 非常适合监控后台参数等场景;
ZONGLYN
2019/08/08
5.6K0
Java 高效编程·函数式替代 for 循环
虽然使用 range 没有显著减少代码量,但降低了它的复杂性,这么做的两个重要原因:
数媒派
2022/12/01
8000
Java 函数引用 替代方案
通过接口和内部类 举个例子吧 比如new一个线程 c#里是这样 Thread tr = new Thread(new ThreadStart(func)); 其中func是函数名 那么java里可以这样 Thread tr = new Thread() { public void run() {func();} }; 也没有多写多少代码
ApacheCN_飞龙
2019/02/15
8480
5 个 Docker 替代方案
提高容器安全性、Docker 未来的不确定性、技术战略变化和预算问题都可能促使企业寻找 Docker 的替代品作为其容器标准。
我的小碗汤
2023/03/19
2.5K0
5 个 Docker 替代方案
react useCallback完美替代方案
react函数组件为了保持引用不变,很多时候需要借助useCallback,但是useCallback强依赖于外部变量,必须传个依赖变量,万一漏传了很容易出问题。比较函数复杂时较麻烦,使用这个即可完美解决,引用不变,调用肯定是最新的,并且不需依赖
ACK
2021/01/21
1.6K0
点击加载更多

相似问题

我可以在Switch语句上使用对象吗?

354

可以在事件处理程序上使用延迟对象链吗?

11

可以使用对象而不是Switch语句吗?

31

是否可以在switch语句中使用switch语句?

22

可以在switch语句中使用类吗?

41
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档