写在前面
深度学习算法工程师,也被戏称为“炼丹师”,而样本,就是所谓的药材。最后训练出来的模型,就是丹药。当然,药材成色好,年分足,自然更容易炼出好的丹药。难得是,在药材劣质的情况下,如何也能够保证得到一炉仙丹呢?这个就要看丹师的药材配方和炼丹技术了。
今天,我们给大家介绍的样本不平衡问题,就是为了帮助丹师们解决药材不好的难题,进而来提高炼丹技术。
王坨坨
Kuan老师,什么是样本不平衡问题?
样本不平衡问题指的是数据集中各个类别的样本数量极不均衡。以二分类问题为例,通常样本数量比例超过4:1(也有说3:1)就可以称为不平衡数据。样本不平衡实际上是一种非常常见的现象。比如:欺诈交易检测,产品质量检测问题,信用卡的征信问题等,往往都是正样本数量远远大于负样本数量。
Kuan
王坨坨
样本不平衡会对我们模型的训练带来哪些影响呢?
简单来讲,样本不平衡会使得我们的分类模型存在很严重的偏向性,但是从一些常用的指标上又无法看出来。举一个极端一点的例子,如果正负样本比例为100:1,那岂不是把全部样本都判定为正样本就有99%+的分类准确率了。但是从测试结果上来看,就表现为有太多的False Positive。
Kuan
王坨坨
那在机器学习中解决样本不平衡问题有哪些方法?
在机器学习中,处理样本不平衡问题,主要有3种策略:从数据角度、从算法层面和从评价指标角度。
Kuan
数据角度,通常的方法包括如下
算法角度,通常的方法包括如下
王坨坨
在深度学习中,有哪些解决样本不平衡的方法?
深度学习同样属于机器学习中的一种典型方法,所以在机器学习中适用的方法在深度学习中同样适用。比如说:扩大数据集、类别均衡采样、人工产生数据样本,添加少类别样本的来loss惩罚项等。
Kuan
王坨坨
从图像和文本数据的角度出发,有哪些方法?
对于图像数据,会用到的方法包括了:类别均衡采样,可以用来解决分类问题。另外,在我看来还值得介绍的方法包括了:OHEM和Focal loss。
Kuan
OHEM
github地址:https://github.com/abhi2610/ohem
Focal Loss
领取专属 10元无门槛券
私享最新 技术干货