首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

搞深度学习必须要知道的开源图像数据集

学习深度学习的关键是练习,从图像处理到语音识别等领域都有许多研究学习的方向。每一个问题都有其独特的处理方法。所以当你找准一个方向后,了解原理以及编程实践是重要的。我们知道深度学习所依赖的除了计算能力,还有就是充足的数据量。但是你在哪里可以获得这些数据?你现在看到的很多研究论文都使用通常不向公众发布的专有数据集。如果您想学习和应用新获得的技能,这将成为一个问题。

在本文中,我们列出了8个目标检测图像处理方向的高质量数据集。处理这些数据集将使您成为更好的数据科学家,并且您将拥有的学习量在您的职业生涯中将是非常宝贵的。我们还提供了具有最新技术(SOTA)结果的论文供您使用并改进您的模型。

目标检测

MNIST

MNIST是最受欢迎的深度学习数据集之一。它是手写数字的数据集,包含60,000个示例的训练集和10,000个示例的测试集。它是一个很好的数据库,用于在实际数据上尝试学习技术和深度识别模式,同时让您在数据预处理上花费最少的时间和精力。

大小:50 MB

记录数:10个类别中的70,000张图像

SOTA: 深度学习入门必备项目

MS-COCO

COCO是一种大规模且丰富的对象检测,分割和字幕数据集。它有几个功能:

对象分割

在背景下的认可

超像素的东西分割

330K图像(> 200K标记)

150万个对象实例

80个对象类别

91个东西类别

每张图片5个字幕

250,000人拥有关键点

尺寸: 25 GB(压缩)

记录数量: 330K图像,80个对象类别,250,000个关键点人物

SOTA: Mask R-CNN

ImageNet

ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个短语,ImageNet平均提供了大约1000个图像来说明每个短语。

尺寸: ~150GB

记录 数:图像总数:~1,500,000; 每个都有多个边界框和各自的类标签

SOTA: 深度神经网络的聚合残差变换

Open Images

Open Images是一个包含近900万个图像URL的数据集。这些图像已经注释了图像标签,这些标签跨越数千个类。该数据集包含9,011,219个图像的训练集,41,260个图像的验证集和125,436个图像的测试集。

尺寸: 500 GB(压缩)

记录数: 9,011,219张图片,标签超过5k

SOTA:Resnet 101图像分类模型

VisualQA

VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解场景和语言。该数据集的一些有趣功能包括:

265,016张图片(COCO和抽象场景)

每张图片至少有3个问题(平均5.4个问题)

每个问题10个基本事实答案

每个问题3个似是而非(但可能不正确)的答案

自动评估指标

大小: 25 GB(压缩)

记录数量: 265,016张图片,每张图片至少3个问题,每个问题10个基本真实答案

SOTA: 视觉问答问题

SVHN(街道门牌号)

这是用于开发对象检测算法的真实世界图像数据集。这需要最少的数据预处理。它类似于此列表中提到的MNIST数据集,但具有更多标记数据(超过600,000个图像)。该数据是从Google街景中查看的门牌号码中收集的。

尺寸: 2.5 GB

记录数量: 10类中的6,30,420张图片

SOTA: 分布式平滑的虚拟对抗训练

CIFAR-1

该数据集是另一个用于图像分类的数据集。它由10个类的60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练集和1个验证集。每个集有10,000张图片。

大小: 170 MB

记录数量: 10个类别中的60,000张图像

SOTA: ShakeDrop正则化

Fashion-MNIS

Fashion-MNIST包括60,000张训练图像和10,000张测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其创建为该数据集的直接替代品。每个图像都是灰度图像,并与10个类别的标签相关联。

大小: 30 MB

记录数: 10个班级中的70,000张图像

SOTA: 随机擦除数据扩充

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190107A0IW9800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券