首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >异常值检测

异常值检测

作者头像
小爷毛毛_卓寿杰
发布2019-04-22 10:48:36
发布2019-04-22 10:48:36
8360
举报
文章被收录于专栏:Soul Joy HubSoul Joy Hub

1. Anomaly Detection

异常值检测想要做的任务是从数据中找出与其他数据显著不同的数据,其具体应用有如:信用卡盗卡检测、网络攻击检测、癌细胞检测等。

2. Binary Classfication?

异常值检测能不能看做一个二分类任务来建模?通常来说,异常值不能被看做为一个类别,因为异常值的种类实在是太多了。比如说做数字图片分类,有异常值图片根本就不是0~9中的某一个数字,但不是0~9的图片种类实在是太多了,根本不能把它们看做是一个类别。

异常值检测还有一个挑战就是:通常异常值样本很难被收集到。所以异常值检测很难直接被看做二分类任务。

3. 有Label数据的异常值检测

有Label数据如何做异常值检测呢?比较直观的想法,在做分类任务时,输出一个置信分,并设定一个阈值,如果置信分小于该阈值就判定为异常值。

异常值检测任务:

  • 收集训练集,训练集全部为正常值
  • 训练分类模型
  • 收集验证集,验证集中含着异常值样本
  • 利用AUC等来衡量异常检测效果

4. 无Label数据的异常值检测

4.1 Likelihood

无Label数据的异常值检测思想和朴素贝叶斯相似,使用最大似然估计。我们可以假设各个特征的取值概率分布为高斯分布:

likelihood:

正态分布的最大似然估计和矩估计相同,所以有:

于是便可以构建异常检测:

4.2 Auto-Encoder

另外一种比较直观的想法是利用Auto-Encoder。如Auto-Encoder对数字图片进行编码,训练完成后,若输入图片非数字,输出的解码结果将与输入图片存在较大差异。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年04月15日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Anomaly Detection
  • 2. Binary Classfication?
  • 3. 有Label数据的异常值检测
  • 4. 无Label数据的异常值检测
    • 4.1 Likelihood
    • 4.2 Auto-Encoder
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档