Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习:来自13个Kaggle项目的经验总结

机器学习:来自13个Kaggle项目的经验总结

作者头像
Ai学习的老章
发布于 2020-12-08 06:34:58
发布于 2020-12-08 06:34:58
1.1K0
举报

任何领域的成功都可以归结为一套小规则和基本原则,当它们结合在一起时会产生伟大的结果。

机器学习和图像分类也不例外,工程师们可以通过参加像Kaggle这样的竞赛来展示最佳实践。

在这篇文章中,我将给你很多资源来学习,聚焦于从13个Kaggle比赛中挑选出的最好的Kaggle kernel。这些比赛是:

  • Intel Image Classification:https://www.kaggle.com/puneet6060/intel-image-classification
  • Recursion Cellular Image Classification:https://www.kaggle.com/c/recursion-cellular-image-classification
  • SIIM-ISIC Melanoma Classification:https://www.kaggle.com/c/siim-isic-melanoma-classification
  • APTOS 2019 Blindness Detection:https://www.kaggle.com/c/aptos2019-blindness-detection/notebooks
  • Diabetic Retinopathy Detection:https://www.kaggle.com/c/diabetic-retinopathy-detection
  • ML Project — Image Classification:https://www.kaggle.com/c/image-classification-fashion-mnist/notebooks
  • Cdiscount’s Image Classification Challenge:https://www.kaggle.com/c/cdiscount-image-classification-challenge/notebooks
  • Plant seedlings classifications:https://www.kaggle.com/c/plant-seedlings-classification/notebooks
  • Aesthetic Visual Analysis:https://www.kaggle.com/c/aesthetic-visual-analysis/notebooks

我们会讨论调试深度学习解决方案的三个主要方面:

  • 数据
  • 模型
  • 损失函数

还有很多例子项目(和参考资料)供你参考。

数据

图像预处理 + EDA

每一个机器学习/深度学习解决方案都从原始数据开始。在数据处理管道中有两个基本步骤。

第一步是探索性数据分析 (EDA)。它帮助我们分析整个数据集并总结它的主要特征,比如类分布、大小分布等等。通常使用可视化方法来显示这种分析的结果。

第二步是图像预处理,目的是对原始图像提高图像数据(也称为图像特征)的质量,通过抑制不必要的扭曲,缩放,增强重要的特征,使数据更适合模型并提高性能。

你可以钻研这些Kaggle笔记本,看看一些图像预处理技术:

  • Visualisation:https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline#Building-a-baseline-model-
  • Dealing with Class imbalance:https://www.kaggle.com/rohandeysarkar/ultimate-image-classification-guide-2020
  • Fill missing values (labels, features and, etc.):https://www.kaggle.com/datafan07/analysis-of-melanoma-metadata-and-effnet-ensemble
  • Normalisation :https://www.kaggle.com/vincee/intel-image-classification-cnn-keras
  • Pre-processing:https://www.kaggle.com/ratthachat/aptos-eye-preprocessing-in-diabetic-retinopathy#3.A-Important-Update-on-Color-Version-of-Cropping-&-Ben's-Preprocessing

数据增强

数据增强 可以通过从现有的训练样本中生成更多的训练数据来扩展我们的数据集。通过大量的随机转换生成新的样本,这些转换不仅可以生成可信的图像,而且还反映了真实的场景 —— 稍后将对此进行详细介绍。

这种技术得到了广泛的应用,不仅仅是在训练模型的数据样本太少的情况下。在这种情况下,模型开始记忆训练集,但无法泛化(在从未见过的数据上表现很差)。

通常,当一个模型在训练数据上表现很好,但在验证数据上表现很差时,我们称之为过拟合。为了解决这个问题,我们通常会尝试获取新数据,如果没有可用的新数据,则可以使用数据增强。

:一般的经验法则是始终使用数据增强技术,因为它有助于使我们的模型见识更多的变化并更好地泛化。即使我们有一个很大的数据集,也要使用数据增强,但这是以较慢的训练速度为代价的,因为增强是在线完成的(即在训练期间)。

此外,对于每个任务或数据集,我们必须使用反映可能的现实场景的增强技术(例如,如果我们有一个猫/狗探测器,我们可以使用水平翻转、剪裁、亮度和对比度,因为这些增强匹配不同的照片拍摄方式。

这里是一些Kaggle比赛notebooks,你可以查看流行的数据增强技术:

  • Horizontal Flip:https://www.kaggle.com/datafan07/analysis-of-melanoma-metadata-and-effnet-ensemble
  • Random Rotate and Random Dihedral:https://www.kaggle.com/iafoss/pretrained-resnet34-with-rgby-0-460-public-lb
  • Hue, Saturation, Contrast, Brightness, Crop:https://www.kaggle.com/cdeotte/triple-stratified-kfold-with-tfrecords
  • Colour jitter:https://www.kaggle.com/nroman/melanoma-pytorch-starter-efficientnet

模型

开发一个基线

在这里,我们使用一个非常简单的架构创建一个基本的模型,没有任何正则化或dropout层,看看我们是否能超过50%的准确率基线。尽管我们不可能总能达到这个目标,但如果我们在尝试了多种合理的架构后不能超过基线,那么输入数据可能不包含模型进行预测所需的信息。

用Jeremy Howard的名言:

“你应该能够在15分钟内使用50%或更少的数据集快速测试你是否正在朝着一个有希望的方向前进,如果没有,你必须重新考虑一切。”

开发一个足够大可以过拟合的模型

一旦我们的基线模型有足够的能力超过基线分数,我们就可以增加基线模型的能力,直到它在数据集上过拟合为止,然后我们就开始应用正则化。我们可以通过以下方式增加模块容量:

  • 添加更多层
  • 使用更好的结构
  • 更完善的训练流程

结构

根据文献,以下架构的改进提高了模型的容量,但几乎没有改变计算复杂度。

  • Residual Networks
  • Wide Residual Networks
  • Inception
  • EfficientNet
  • Swish activation
  • Residual Attention Network

大多数时候,模型容量和精度是正相关的 —— 随着容量的增加,精度也会增加,反之亦然。

训练过程

下面是一些你可以用来调整你的模型的训练过程,通过实例项目来看看它们是如何工作的:

  • Mixed-Precision Training
  • Large Batch-Size Training
  • Cross-Validation Set
  • Weight Initialization
  • Self-Supervised Training (Knowledge Distillation)
  • Learning Rate Scheduler
  • Learning Rate Warmup
  • Early Stopping
  • Differential Learning Rates
  • Ensemble
  • Transfer Learning
  • Fine-Tuning

超参数调试

与参数不同,hyperparameters是由你在配置模型时指定的(即学习率、epoch的数量、hidden units的数量、batch size大小等)。

你可以通过使用hyperparameter调优库,比如Scikit learn Grid Search,Keras Tuner来自动化这个过程,而不是去手动配置。这些库会在你指定的范围内尝试所有的hyperparameter组合,返回表现最好的模型。

需要调优的超参数越多,过程就越慢,因此最好选择模型超参数的最小子集进行调优。

并不是所有的模型超参数都同样重要。一些超参数会对机器学习算法的行为产生巨大的影响,进而影响其性能。你应该小心地选择那些对模型性能影响最大的参数,并对它们进行调优以获得最佳性能。

正则化

这种方法迫使模型学习有意义和具有泛化能力的数据表示,通过对记忆/过拟合欠拟合进行惩罚来实现,使模型对于它没见过的数据更鲁棒。

解决上述问题的一个简单方法是获得更多的训练数据,因为一个模型训练的数据越多,自然就会泛化得越好。

这里有一些技巧你可以试着减轻过拟合和欠拟合,项目如下:

  • Adding Dropout:https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline
  • Adding or changing the position of Batch Norm:https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline
  • Data augmentation:https://www.kaggle.com/cdeotte/triple-stratified-kfold-with-tfrecords
  • Mixup:https://arxiv.org/abs/1710.09412
  • Weight regularization:https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline
  • Gradient clipping:https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline

损失函数

损失函数也被称为成本函数或目标函数,用于查找目标输出的模型之间的差异,并帮助模型最小化它们之间的距离。

这里是一些最流行的损失函数,与项目实例,你会发现一些技巧,以提高你的模型的能力:

  • Label smoothing
  • Focal loss
  • SparseMax loss and Weighted cross-entropy
  • BCE loss, BCE with logits loss and Categorical cross-entropy loss
  • Additive Angular Margin Loss for Deep Face Recognition

评估 + 错误分析

在这里,我们做消融研究,并分析我们的实验结果。我们确定了我们的模型的弱点和长处,并确定了未来需要改进的地方。在这个阶段,你可以使用以下技术,并在链接的示例中查看它们是如何实现的:

  • Tracking metrics and Confusion matrix:https://www.kaggle.com/vincee/intel-image-classification-cnn-keras
  • Grad CAM:https://arxiv.org/pdf/1610.02391v1.pdf
  • Test Time Augmentation (TTA):https://www.kaggle.com/iafoss/pretrained-resnet34-with-rgby-0-460-public-lb

有许多实验跟踪和管理工具,采取最小设置为你自动保存所有数据,这使消融研究更容易。

最后

有许多方法来调整你的模型,并且新的想法总是会出现。深度学习是一个快速发展的领域,没有什么灵丹妙药。我们必须做很多实验,足够的试验和错误会带来突破。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
想象一下,如果你能得到所有的tips和tricks,你需要去参加一个Kaggle比赛。我已经超过39个Kaggle比赛,包括:
double
2020/12/17
1.4K0
从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
半年5战5金:Kaggle史上最快GrandMaster是如何炼成的
SueTao 擅长计算机视觉(Computer Vision),半年 5 战 5 金,也许是史上最快的 GrandMaster。截至目前共斩获 9 金 3 银,kaggle 最高排名全球第 10。
Python数据科学
2019/11/12
7800
半年5战5金:Kaggle史上最快GrandMaster是如何炼成的
Kaggle大神亲述:我是如何半年拿5次金牌晋升Grandmaster的?
Kaggle是全球首屈一指的数据科学、机器学习竞赛和分享平台,企业和研究者可以在Kaggle平台发布数据、举行/参加竞赛,通过“众包”的形式产生最好的模型,现在注册用户数量超过100万。
昱良
2019/07/04
1.9K0
训练2021年每个SOTA模型,他的「核武」策略意外收获Kaggle银牌
在 Kaggle 的世界,软件开发者、金融模式和行为研究公司 Deep trading 的创始人 Yam Peleg 称得上一位「大神」。目前,他在 Notebooks Grandmaster 中排名第 11,在 Discussion Grandmaster 中排名第 5。
机器之心
2022/02/24
4470
训练2021年每个SOTA模型,他的「核武」策略意外收获Kaggle银牌
本科生晋升GM记录 & Kaggle比赛进阶技巧分享
点击上方“Datawhale”,选择“星标”公众号 第一时间获取价值内容 作者:GaryLIU 来源:Cver https://zhuanlan.zhihu.com/p/93806755 本文已授
Datawhale
2019/12/03
1.3K0
[pytorch] 图像分类框架【Efficientnet0/1/2/3/4/5/6/7】
以kaggle的SIIM-ISIC Melanoma Classification比赛:https://www.kaggle.com/c/siim-isic-melanoma-classification ; 介绍efficientnet模型在分类任务上的使用。
MachineLP
2020/10/29
5530
图像分类任务中的损失
图像分类是机器学习中的一项重要任务。这项任务有很多比赛。良好的体系结构和增强技术都是必不可少的,但适当的损失函数现在也是至关重要的。
AI研习社
2019/11/18
2.3K0
图像分类任务中的损失
【深度学习实战】kaggle 自动驾驶的假场景分类
文件 train.csv - 训练集标签 Sample_submission.csv - 正确格式的示例提交文件 Train/- 训练图像 Test/ - 测试图像
机器学习司猫白
2025/01/21
1850
【深度学习实战】kaggle 自动驾驶的假场景分类
机器学习里的bias的一些处理方法和思考
机器学习的bias对性能影响很大,常常会使一个线下优秀的模型线上落不了地,或者闹出新闻里的笑话.在机器学习竞赛或数据集里,很多时候对bias的处理在test上带来的提升可能比模型提升还要多.以下写写我这些年遇到的一些机器学习里的bias的一些处理方法.
Ai学习的老章
2021/01/25
7460
[深度应用]·Kaggle人类蛋白质图谱图像分类第一名解决方案
祝贺所有获奖者,并感谢主持人和kaggle举办了这样一场有趣的比赛。 我很抱歉迟到,我最近几天努力准备它,试图验证我的解决方案,并确保它的可重复性,稳定性,高效性和解释性。
小宋是呢
2019/06/27
1.1K0
[深度应用]·Kaggle人类蛋白质图谱图像分类第一名解决方案
我的Kaggle第一金-Happywhale
老肥今天和大家分享的是最近结束的Kaggle竞赛Happywhale - Whale and Dolphin Identification。
老肥码码码
2022/06/06
6270
我的Kaggle第一金-Happywhale
从零开始学keras(七)之kaggle猫狗分类器
【导读】Keras是一个由Python编写的开源人工神经网络库,可以作为Tensorflow、和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化。本系列将教你如何从零开始学Keras,从搭建神经网络到项目实战,手把手教你精通Keras。相关内容参考《Python深度学习》这本书。
墨明棋妙27
2022/08/24
1.4K0
从零开始学keras(七)之kaggle猫狗分类器
提高CV模型训练性能的9个技巧
本文[1] 主要想分享一些可能有助于提高计算机视觉任务模型训练速度和准确性的一般技巧或建议,这些建议是通过课程、阅读顶级文章或论文学习所得来的。
数据科学工厂
2023/02/27
5580
提高CV模型训练性能的9个技巧
Kaggle参赛入门经验
在数据科学领域,没有人不知道大名鼎鼎的kaggle——人们在这里学习交流,提高自己的技能。对于从业者来说,最好是参加预测任务竞赛来提升自己。对于新手来说,一定要到kaggle网站实际参与一次竞赛,至少我一直是这样认为的。
AI研习社
2019/11/18
1K0
Kaggle参赛入门经验
【AI 进阶笔记】cv 小白上手 Kaggle Bird vs Drone 【图像分类】
看一下解压后的标签,可以看到标签的风格是 YOLO 风格的,其中每个标签的第一列是类别,后面是归一化的边界框坐标。不过我想先尝试一下不用 label,不对内容进行目标检测,仅仅用图片名称的分类数据来进行分类检测
繁依Fanyi
2025/04/05
3581
Kaggle座头鲸识别赛,TOP10团队的解决方案分享
这是近期Kaggle上颇受欢迎的一次竞赛,常用的分类方法无法处理大量的无标注数据,只有对传统的方法进行创新,才能够获得高分。
大数据文摘
2019/03/19
9760
Kaggle座头鲸识别赛,TOP10团队的解决方案分享
Kaggle肠胃道图像分割比赛baseline
https://www.kaggle.com/competitions/uw-madison-gi-tract-image-segmentation/overview/description
3D视觉工坊
2022/06/28
5940
Kaggle肠胃道图像分割比赛baseline
机器学习的十大图像分类数据集
为了帮助构建对象识别模型,场景识别模型等,编制了最佳图像分类数据集的列表。这些数据集的范围和大小各不相同,可以适应各种用例。此外数据集已分为以下几类:医学成像,农业和场景识别等。
代码医生工作室
2019/12/20
9.1K0
机器学习的十大图像分类数据集
TorchVision Faster R-CNN 微调,实战 Kaggle 小麦检测
本文将利用 TorchVision Faster R-CNN 预训练模型,于 Kaggle: 全球小麦检测[1] ? 上实践迁移学习中的一种常用技术:微调(fine tuning)。 本文相关的 Ka
GoCoding
2021/05/06
1.4K0
TorchVision Faster R-CNN 微调,实战 Kaggle 小麦检测
Kaggle 竞赛第五名分享经验给你
这篇文章记录了我参加 Kaggle 植物幼苗分类比赛 所采用的方法。我曾连续几个月占据榜首,并最终名列第五。这些方法通用性很好,可以应用到其他的图片分类任务中。(戳链接:https://www.kaggle.com/c/plant-seedlings-classification))
朱晓霞
2022/03/04
7050
Kaggle 竞赛第五名分享经验给你
推荐阅读
相关推荐
从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
更多 >
交个朋友
加入架构与运维学习入门群
系统架构设计入门 运维体系构建指南
加入架构与运维趋势交流群
技术趋势前瞻 架构演进方向
加入[架构及运维] 腾讯云技术交流站
云架构设计 云运维最佳实践
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档