首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

炼丹笔记之样本不平衡问题

写在前面

深度学习算法工程师,也被戏称为“炼丹师”,而样本,就是所谓的药材。最后训练出来的模型,就是丹药。当然,药材成色好,年分足,自然更容易炼出好的丹药。难得是,在药材劣质的情况下,如何也能够保证得到一炉仙丹呢?这个就要看丹师的药材配方和炼丹技术了。

今天,我们给大家介绍的样本不平衡问题,就是为了帮助丹师们解决药材不好的难题,进而来提高炼丹技术。

王坨坨

Kuan老师,什么是样本不平衡问题?

样本不平衡问题指的是数据集中各个类别的样本数量极不均衡。以二分类问题为例,通常样本数量比例超过4:1(也有说3:1)就可以称为不平衡数据。样本不平衡实际上是一种非常常见的现象。比如:欺诈交易检测,产品质量检测问题,信用卡的征信问题等,往往都是正样本数量远远大于负样本数量。

Kuan

王坨坨

样本不平衡会对我们模型的训练带来哪些影响呢?

简单来讲,样本不平衡会使得我们的分类模型存在很严重的偏向性,但是从一些常用的指标上又无法看出来。举一个极端一点的例子,如果正负样本比例为100:1,那岂不是把全部样本都判定为正样本就有99%+的分类准确率了。但是从测试结果上来看,就表现为有太多的False Positive。

Kuan

王坨坨

那在机器学习中解决样本不平衡问题有哪些方法?

在机器学习中,处理样本不平衡问题,主要有3种策略:从数据角度、从算法层面和从评价指标角度。

Kuan

数据角度,通常的方法包括如下

算法角度,通常的方法包括如下

王坨坨

在深度学习中,有哪些解决样本不平衡的方法?

深度学习同样属于机器学习中的一种典型方法,所以在机器学习中适用的方法在深度学习中同样适用。比如说:扩大数据集、类别均衡采样、人工产生数据样本,添加少类别样本的来loss惩罚项等。

Kuan

王坨坨

从图像和文本数据的角度出发,有哪些方法?

对于图像数据,会用到的方法包括了:类别均衡采样,可以用来解决分类问题。另外,在我看来还值得介绍的方法包括了:OHEM和Focal loss。

Kuan

OHEM

github地址:https://github.com/abhi2610/ohem

Focal Loss

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190128G1CJIJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券