首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

预测模型(1)-不均衡数据的形式及潜在风险

表现形式

分类和预测模型中,常常遇到的一个问题是数据不均衡。如果在训练数据集中出现的类别占比差别很大,例如99% vs 1%,那根据该数据集训练出来的模型在测试数据集进行预测时,会出现很大的偏倚。常见于信用欺诈、罕见疾病等场景。

常常表现精确度很高,占比高的类别的预测准确率基本接近100%,但占比低的类别预测准确率基本接近0,主要是因为模型绝大多数情况会预测为占比多的那一类。If we use unbalanced data to train a classifier, prediction will be biased towards the more frequent class.

例如:

在机器学习的算法中,常常采取的措施是通过降低错误率来提高模型精度,但不会考虑数据中类别的是否均衡的问题。

This happens because Machine Learning Algorithms are usually designed to improve accuracy by reducing the error. Thus, they do not take into account the class distribution / proportion or balance of classes.

存在的问题

假设我们有一份4521个样本的数据,其中有521例event,4000例non-event,数据在一定程度上呈现出不均衡的问题。我们将数据按照70%-30%的比例拆分成训练集和测试集。为构建不同的不均衡比例,采用分层抽样法构建新的数据

结果显示:

1)在训练集中,精确度一直保持在80%左右,并不受不均衡比例的影响。但在测试数据集中,精确度对不均衡比例很敏感。

2)在测试集中,当不均衡比例出现时,灵敏度、特异度和精确度三者不会同时呈现较好的结果,总有一个指标会比较差。

3)增加event的比例,灵敏度会提高,而增加non-event的比例,特异度会提高。

衡量模型的指标要多样化,及时发现潜在数据不均衡问题

1)针对2分类结局,此时引入均衡精确度(balanced accuracy):

此时c属于[0,1],c的取值取决于灵敏度和特异度的相对重要性,通常取1/2

2) 混淆矩阵confusion matrix,构建一一对应的均值,观察各个类别的预测准确率

3)Precision, Recall, F-score

4)Kappa (or Cohen's Kappa), and ROC curves.具体计算公式将在随后的推送进行集中呈现《预测模型-(3)模型的评价指标汇总》

解决方案

处理数据不均衡的问题主要有两种方法:均衡训练集数据(重抽样)或使用高级算法。因涉及方法较多,将会在《预测模型-(2)不均衡数据的处理方法》呈现,欢迎关注!

深入阅读:

http://www.simafore.com/blog/bid/111124/Decision-tree-accuracy-effect-of-unbalanced-datahttp://www.simafore.com/blog/bid/151602/Predictive-analytics-on-unbalanced-data-classification-performance

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180606G1NEGW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券