学习深度学习的关键是练习,从图像处理到语音识别等领域都有许多研究学习的方向。每一个问题都有其独特的处理方法。所以当你找准一个方向后,了解原理以及编程实践是重要的。我们知道深度学习所依赖的除了计算能力,还有就是充足的数据量。但是你在哪里可以获得这些数据?你现在看到的很多研究论文都使用通常不向公众发布的专有数据集。如果您想学习和应用新获得的技能,这将成为一个问题。
在本文中,我们列出了8个目标检测图像处理方向的高质量数据集。处理这些数据集将使您成为更好的数据科学家,并且您将拥有的学习量在您的职业生涯中将是非常宝贵的。我们还提供了具有最新技术(SOTA)结果的论文供您使用并改进您的模型。
目标检测
MNIST
MNIST是最受欢迎的深度学习数据集之一。它是手写数字的数据集,包含60,000个示例的训练集和10,000个示例的测试集。它是一个很好的数据库,用于在实际数据上尝试学习技术和深度识别模式,同时让您在数据预处理上花费最少的时间和精力。
大小:50 MB
记录数:10个类别中的70,000张图像
SOTA: 深度学习入门必备项目
MS-COCO
COCO是一种大规模且丰富的对象检测,分割和字幕数据集。它有几个功能:
对象分割
在背景下的认可
超像素的东西分割
330K图像(> 200K标记)
150万个对象实例
80个对象类别
91个东西类别
每张图片5个字幕
250,000人拥有关键点
尺寸: 25 GB(压缩)
记录数量: 330K图像,80个对象类别,250,000个关键点人物
SOTA: Mask R-CNN
ImageNet
ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个短语,ImageNet平均提供了大约1000个图像来说明每个短语。
尺寸: ~150GB
记录 数:图像总数:~1,500,000; 每个都有多个边界框和各自的类标签
SOTA: 深度神经网络的聚合残差变换
Open Images
Open Images是一个包含近900万个图像URL的数据集。这些图像已经注释了图像标签,这些标签跨越数千个类。该数据集包含9,011,219个图像的训练集,41,260个图像的验证集和125,436个图像的测试集。
尺寸: 500 GB(压缩)
记录数: 9,011,219张图片,标签超过5k
SOTA:Resnet 101图像分类模型
VisualQA
VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解场景和语言。该数据集的一些有趣功能包括:
265,016张图片(COCO和抽象场景)
每张图片至少有3个问题(平均5.4个问题)
每个问题10个基本事实答案
每个问题3个似是而非(但可能不正确)的答案
自动评估指标
大小: 25 GB(压缩)
记录数量: 265,016张图片,每张图片至少3个问题,每个问题10个基本真实答案
SOTA: 视觉问答问题
SVHN(街道门牌号)
这是用于开发对象检测算法的真实世界图像数据集。这需要最少的数据预处理。它类似于此列表中提到的MNIST数据集,但具有更多标记数据(超过600,000个图像)。该数据是从Google街景中查看的门牌号码中收集的。
尺寸: 2.5 GB
记录数量: 10类中的6,30,420张图片
SOTA: 分布式平滑的虚拟对抗训练
CIFAR-1
该数据集是另一个用于图像分类的数据集。它由10个类的60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练集和1个验证集。每个集有10,000张图片。
大小: 170 MB
记录数量: 10个类别中的60,000张图像
SOTA: ShakeDrop正则化
Fashion-MNIS
Fashion-MNIST包括60,000张训练图像和10,000张测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其创建为该数据集的直接替代品。每个图像都是灰度图像,并与10个类别的标签相关联。
大小: 30 MB
记录数: 10个班级中的70,000张图像
SOTA: 随机擦除数据扩充
领取专属 10元无门槛券
私享最新 技术干货