前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >重回机器学习----(1、机器学习的一些基本问题)

重回机器学习----(1、机器学习的一些基本问题)

作者头像
钱塘小甲子
发布2022-05-07 14:12:28
3110
发布2022-05-07 14:12:28
举报
文章被收录于专栏:钱塘小甲子的博客

1.样本偏差问题

        所谓样本偏差问题,以二分类问题来说,就是两个类别的样本个数存在很大的区别。比如,我们识别违约的问题,我们知道,一般违约都是小概率的,要不然放贷款的就都玩完了。那么这个时候,训练模型就会有样本偏差的问题,可能一百个样本中只有一个是违约的,如果不做处理,模型肯定更加习惯于判定不违约,因为随便来一个样本,判断不违约的准确率都是99%。

        这个问题要分情况来解决,比如如果两者的样本都很大。比如你的数据足够多,上亿级别的,那么一个亿的百分之一是百万,这个级别的数据量其实可以进行下采样。也就是丢掉不违约的样本,让两者样本平衡。

        如果发现不行,你的样本量是在是太小了,那么只能进行所谓的上采样。比如,违约样本多重复几次、如果是图片的识别,那么可以进行镜像或者旋转变换。此外,除了在样本上下功夫外,也可以改变损失函数,让损失函数对样本少的情况加大惩罚。

2、连续数据和离散数据

        连续数据和离散数据不是按照数据本身来看的。比如同样的变量,价格,在有些场景下可以是连续变量,有些场景下可以是离散变量。这种看起来连续的变量离散化背后的原因是非线性。

3、类别特征的Hash技巧

        一般用在自然语言处理上。比如一句话按照词库进行离散化,也就是变成一个很长的0、1向量。我们知道,词库中的词是有意义的,那么把一个主题的词汇放在一起,成为一个袋子,然后统计一下向量中属于这个袋子中的词汇的数目,这样就变成了一系列袋子和数目的特征了。这就是所谓的Hash技巧。

4、交叉验证集的作用

       交叉验证集做参数/模型选择,测试集只做模型效果评估。

其中有一个方法叫做k交叉验证,这个就是把训练集变成k份,然后每次选k-1份训练模型,剩下一份评估。然后获得k个评估结果,做均值,就获得了训练集的效果。不断变换模型,最后获得一个比较好的模型和参数。

        最后外面的测试集合则是最后用来评估模型的。但是,有一点注意,金融数据大部分都是不能用这个方法的,因为金融数据天然就不是稳态的。

5、模型bias和variance验证的方法

        所谓的bias就是模型的偏差,variance就是模型的方差。

        上面的横轴是样本的数量。如果随着样本的数量增加,在测试集合验证集上面的准确率是趋同的,那么这个模型就是variance比较小的。如果趋同到一个比较满意的准确度,那么这个模型是比较完美的,就像上面的右下角的图一样;如果趋同到一个较低的准确度,就像上面的左上角的图一样,这种情况就叫做有bias。那么如果训练集和测试集准确度不会收敛到一致,最后总有一个较大的准确度的差距,即使两者准确度都比较高,那么这样的情况就是有variance,就像右上角这张图这样。

        理论上,我们在进行模型训练的时候是可以把上面这样的图给绘制出来的,然后就可以知道我们的模型是一个怎么样的状态了。

6、过拟合和欠拟合怎么办

        过拟合则寻找更多的样本或者增大正则化系数,比如lasso就是典型的一个例子。欠拟合则可以寻找更多的特征。

7、bad-case分析

        模型个构建过程中,需要进行bad-case分析,也就是查看哪些样本模型搞错了,然后看看能不能从业务上来分析原因,然后修正模型。但是,金融数据又有这个问题,就是没有办法进行bad-case分析,本身就很不讲道理的金融市场,很难通过人的主观的bad-case分析来对模型有什么进步,毕竟人类自己都不知道。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.样本偏差问题
  • 2、连续数据和离散数据
  • 3、类别特征的Hash技巧
  • 4、交叉验证集的作用
  • 5、模型bias和variance验证的方法
  • 6、过拟合和欠拟合怎么办
  • 7、bad-case分析
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档