Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >干货 | AI 从业者都应该知道的实验数据集

干货 | AI 从业者都应该知道的实验数据集

作者头像
AI科技评论
发布于 2018-12-11 07:03:59
发布于 2018-12-11 07:03:59
1.2K0
举报
文章被收录于专栏:AI科技评论AI科技评论

AI 科技评论按:数据集对于深度学习模型的重要性不言而喻,然而根据性质、类型、领域的不同,数据集往往散落在不同的资源平台里,急需人们做出整理。 fast.ai 近期将这些重要的数据集汇总到了一篇文章里,雷锋网 AI 科技评论把文章编译如下。

少了数据,我们的机器学习和深度学习模型什么也干不了。这么说吧,那些创建了数据集、让我们可以训练模型的人,都是我们的英雄,虽然这些人常常并没有得到足够的感谢。让人庆幸的是,那批最有价值的数据集后来成了「学术基准线」——被研究人员广泛引用,尤其在算法变化的对比上;不少名字则成为圈内外都耳熟能详的名称,如 MNIST、CIFAR 10 以及 Imagenet 等。

身为 fast.ai 的一员,我们自觉欠这些数据集的创建者一句真挚的感谢,所以我们决定,通过与 AWS 合作,把一些最重要的数据集集中整理在一处,数据集自身采用标准格式,存储服务器也是快速的、可靠的(请参阅下方的完整列表与链接)。如果您在研究中使用了这些数据集,我们希望您记得引用原始论文(我们已经在表单中提供引用链接);如果您将它们用作商业或教育项目的一部分,请考虑添加致谢文及数据集原链接。

我们之所以经常在教学中引用这些数据集,是因为它们就是学生们很有可能遇到的数据类型的绝佳例子,此外,学生可以将自己的工作与引用这些数据集的学术成果进行对比,从而取得进步。此外,我们也会使用 Kaggle Competitions 数据集,Kaggle 的 public leaderboards 允许学生在世界最好的数据集里测试自己的模型,不过 Kaggle 数据集并不会在本次表单中出现。

图像分类领域

1)MNIST

经典的小型(28x28 像素)灰度手写数字数据集,开发于 20 世纪 90 年代,主要用于测试当时最复杂的模型;到了今日,MNIST 数据集更多被视作深度学习的基础教材。fast.ai 版本的数据集舍弃了原始的特殊二进制格式,转而采用标准的 PNG 格式,以便在目前大多数代码库中作为正常的工作流使用;如果您只想使用与原始同样的单输入通道,只需在通道轴中选取单个切片即可。

引文:http://yann.lecun.com/exdb/publis/index.html#lecun-98

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz

2)CIFAR10

10 个类别,多达 60000 张的 32x32 像素彩色图像(50000 张训练图像和 10000 张测试图像),平均每种类别拥有 6000 张图像。广泛用于测试新算法的性能。fast.ai 版本的数据集舍弃了原始的特殊二进制格式,转而采用标准的 PNG 格式,以便在目前大多数代码库中作为正常的工作流使用。

引文:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3)CIFAR100

与 CIFAR-10 类似,区别在于 CIFAR-100 拥有 100 种类别,每个类别包含 600 张图像(500 张训练图像和 100 张测试图像),然后这 100 个类别又被划分为 20 个超类。因此,数据集里的每张图像自带一个「精细」标签(所属的类)和一个「粗略」标签(所属的超类)。

引文:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz

4)Caltech-UCSD Birds-200-2011

包含 200 种鸟类(主要为北美洲鸟类)照片的图像数据集,可用于图像识别工作。分类数量:200;图片数量:11,788;平均每张图片含有的标注数量:15 个局部位置,312 个二进制属性,1 个边框框。

引文:http://vis-www.cs.umass.edu/bcnn/

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz

5)Caltech 101

包含 101 种物品类别的图像数据集,平均每个类别拥有 40—800 张图像,其中很大一部分类别的图像数量固为 50 张左右。每张图像的大小约为 300 x 200 像素。本数据集也可以用于目标检测定位。

引文:http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

6)Oxford-IIIT Pet

包含 37 种宠物类别的图像数据集,每个类别约有 200 张图像。这些图像在比例、姿势以及光照方面有着丰富的变化。本数据集也可以用于目标检测定位。

引文:http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz

7)Oxford 102 Flowers

包含 102 种花类的图像数据集(主要是一些英国常见的花类),每个类别包含 40—258 张图像。这些图像在比例、姿势以及光照方面有着丰富的变化。

引文:http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz

8)Food-101

包含 101 种食品类别的图像数据集,共有 101,000 张图像,平均每个类别拥有 250 张测试图像和 750 张训练图像。训练图像未经过数据清洗。所有图像都已经重新进行了尺寸缩放,最大边长达到了 512 像素。

引文:https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz

9)Stanford cars

包含 196 种汽车类别的图像数据集,共有 16,185 张图像,分别为 8,144 张训练图像和 8,041 张测试图像,每个类别的图像类型比例基本上都是五五开。本数据集的类别主要基于汽车的牌子、车型以及年份进行划分。

引文:https://ai.stanford.edu/~jkrause/papers/3drr13.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz

自然语言处理领域

1)IMDb Large Movie Review Dataset

用于情感二元分类的数据集,其中包含 25,000 条用于训练的电影评论和 25,000 条用于测试的电影评论,这些电影评论的特点是两极分化特别明显。另外数据集里也包含未标记的数据可供使用。

引文:http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

下载地址:https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2)Wikitext-103

超过 1 亿个语句的数据合集,全部从维基百科的 Good 与 Featured 文章中提炼出来。广泛用于语言建模,当中包括 fastai 库和 ULMFiT 算法中经常用到的预训练模型。

引文:https://arxiv.org/abs/1609.07843

下载地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3)Wikitext-2

Wikitext-103 的子集,主要用于测试小型数据集的语言模型训练效果。

引文:https://arxiv.org/abs/1609.07843

下载地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4)WMT 2015 French/English parallel texts

用于训练翻译模型的法语/英语平行文本,拥有超过 2000 万句法语与英语句子。本数据集由 Chris Callison-Burch 创建,他抓取了上百万个网页,然后通过一组简单的启发式算法将法语网址转换为英文网址,并默认这些文档之间互为译文。

引文:https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf

下载地址:https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz

5)AG News

496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章,数据集仅仅援用了标题和描述字段。每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz

6)Amazon reviews - Full

34,686,770 条来自 6,643,669 名亚马逊用户针对 2,441,053 款产品的评论,数据集主要来源于斯坦福网络分析项目(SNAP)。数据集的每个类别分别包含 600,000 个训练样本和 130,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/amazon_review_full_csv.tgz

7)Amazon reviews - Polarity

34,686,770 条来自 6,643,669 名亚马逊用户针对 2,441,053 款产品的评论,数据集主要来源于斯坦福网络分析项目(SNAP)。该子集的每个情绪极性数据集分别包含 1,800,000 个训练样本和 200,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/amazon_review_polarity_csv.tgz

8)DBPedia ontology

来自 DBpedia 2014 的 14 个不重叠的分类的 40,000 个训练样本和 5,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/dbpedia_csv.tgz

9)Sogou news

2,909,551 篇来自 SogouCA 和 SogouCS 新闻语料库 5 个类别的新闻文章。每个类别分别包含 90,000 个训练样本和 12,000 个测试样本。这些汉字都已经转换成拼音。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/sogou_news_csv.tgz

10)Yahoo! Answers

来自雅虎 Yahoo! Answers Comprehensive Questions and Answers1.0 数据集的 10 个主要分类数据。每个类别分别包含 140,000 个训练样本和 5,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/yahoo_answers_csv.tgz

11)Yelp reviews - Full

来自 2015 年 Yelp Dataset Challenge 数据集的 1,569,264 个样本。每个评级分别包含 130,000 个训练样本和 10,000 个 测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz

12)Yelp reviews - Polarity

来自 2015 年 Yelp Dataset Challenge 数据集的 1,569,264 个样本。该子集中的不同极性分别包含 280,000 个训练样本和 19,000 个测试样本。

引文:https://arxiv.org/abs/1509.01626

下载地址:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_polarity_csv.tgz

目标检测定位

1)Camvid: Motion-based Segmentation and Recognition Dataset

700 张包含像素级别语义分割的图像分割数据集,每张图像都经过第二个人的检查和确认来确保数据的准确性。

引文:https://pdfs.semanticscholar.org/08f6/24f7ee5c3b05b1b604357fb1532241e208db.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imagelocal/camvid.tgz

2)PASCAL Visual Object Classes (VOC)

用于类识别的标准图像数据集——这里同时提供了 2007 与 2012 版本。2012 年的版本拥有 20 个类别。训练数据的 11,530 张图像中包含了 27,450 个 ROI 注释对象和 6,929 个目标分割数据。

引文:http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.pdf

下载地址:https://s3.amazonaws.com/fast-ai-imagelocal/pascal-voc.tgz

COCO 数据集

目前最常用于图像检测定位的数据集应该要属 COCO 数据集(全称为 Common Objects in Context)。本文提供 2017 版 COCO 数据集的所有文件,另外附带由 fast.ai 创建的子集数据集。我们可以从 COCO 数据集下载页面(http://cocodataset.org/#download)获取每个 COCO 数据集的详情。fast.ai 创建的子集数据集包含五个选定类别的所有图像,这五个选定类别分别为:椅子、沙发、电视遥控、书籍和花瓶。

fast.ai 创建的子集数据集:https://s3.amazonaws.com/fast-ai-coco/coco_sample.tgz

训练图像数据集:https://s3.amazonaws.com/fast-ai-coco/train2017.zip

验证图像数据集:https://s3.amazonaws.com/fast-ai-coco/val2017.zip

测试图像数据集:https://s3.amazonaws.com/fast-ai-coco/test2017.zip

未经标注的图像数据集:https://s3.amazonaws.com/fast-ai-coco/unlabeled2017.zip

测试图像数据集详情:https://s3.amazonaws.com/fast-ai-coco/image_info_test2017.zip

未经标注的图像数据集详情:https://s3.amazonaws.com/fast-ai-coco/image_info_unlabeled2017.zip

训练/验证注释集:https://s3.amazonaws.com/fast-ai-coco/annotations_trainval2017.zip

主体训练/验证注释集:https://s3.amazonaws.com/fast-ai-coco/stuff_annotations_trainval2017.zip

全景训练/验证注释集:https://s3.amazonaws.com/fast-ai-coco/panoptic_annotations_trainval2017.zip

via fast.ai,雷锋网 AI 科技评论编译

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【干货】二十五个深度学习相关公开数据集
(选自Analytics Vidhya;作者:Pranav Dar;磐石编译) 目录 介绍 图像处理相关数据集 自然语言处理相关数据集 语音处理相关数据集 Supplement 一.介绍 通常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。 然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新的理论方法往往就成了难题。 如果你也遇到了这样的问题,接下来我们会提供了一系列可用
磐创AI
2018/04/24
1.7K0
【干货】二十五个深度学习相关公开数据集
如何用 Python 和深度迁移学习做文本分类?
在《如何用 Python 和 fast.ai 做图像深度迁移学习?》一文中,我为你详细介绍了迁移学习给图像分类带来的优势,包括:
王树义
2018/12/05
1.1K0
如何用 Python 和深度迁移学习做文本分类?
数据科学家必用的25个深度学习的开放数据集!
原文:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/?spm
昱良
2018/04/18
1.7K0
数据科学家必用的25个深度学习的开放数据集!
开放的一天,吴恩达、谷歌、Facebook纷纷开源数据集
在这篇文章中,我们将介绍这几天开源的三种数据集,它们与已有的通用数据集都不太一样,且更关注精细化的任务。例如在谷歌开源的 QA 数据集中,它里面都是真实的搜索问题,答案也都是从维基百科查找的。这种大型的真实数据集更适合训练一个不那么「低智商」的 QA 对话系统,也更符合成年人实际会问的一些问题。
机器之心
2019/04/30
5360
开放的一天,吴恩达、谷歌、Facebook纷纷开源数据集
深度学习常用数据集资源(计算机视觉领域)
深度学习领域的入门数据集,当前主流的深度学习框架几乎都将MNIST数据集的处理入门第一教程。MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28,数字放在一个归一化的、固定尺寸的图片的中心。
不脱发的程序猿
2021/01/20
5610
AI角 | AI challenger零样本学习算法大赛报名开启,数据集开放
大数据文摘作品 去年,AI Challenger(以下简称AIC)全球挑战赛吸引了来自65个国家近万团队参赛。 今年的AIC预热赛零样本学习(zero-shot learning)竞赛即日起开始。 零样本学习竞赛同样发布大规模图像属性数据集,包含78017张图片、230个类别、359种属性。 与目前主流的用于zero-shot learning的数据集相比,图片量更大、属性更丰富、类别与ImageNet重合度更低。 经典零样本学习方法介绍 创新工场AI工程院运营副总裁吴卓浩表示,因为在很多情况下人们难以获得
大数据文摘
2018/05/23
7890
读完 DALL-E 论文,我们发现大型数据集也有平替版
内容提要:OpenAI 团队的新模型 DALL-E 刷屏,这一新型神经网络,使用 120 亿参数,经过「特训」,任意描述性文字输入后,都可以生成相应图像。如今,团队将这一项目的论文和部分模块代码开源,让我们得以了解这一神器背后的原理。
HyperAI超神经
2021/03/10
1.3K0
读完 DALL-E 论文,我们发现大型数据集也有平替版
[当人工智能遇上安全] 7.基于机器学习的安全数据集总结
《当人工智能遇上安全》系列博客将详细介绍人工智能与安全相关的论文、实践,并分享各种案例,涉及恶意代码检测、恶意请求识别、入侵检测、对抗样本等等。只想更好地帮助初学者,更加成体系的分享新知识。该系列文章会更加聚焦,更加学术,更加深入,也是作者的慢慢成长史。换专业确实挺难的,系统安全也是块硬骨头,但我也试试,看看自己未来四年究竟能将它学到什么程度,漫漫长征路,偏向虎山行。享受过程,一起加油~
Eastmount
2022/03/30
2K0
[当人工智能遇上安全] 7.基于机器学习的安全数据集总结
重磅|基于深度学习的目标检测综述(一)
作者:叶 虎 编辑:黄俊嘉 前 言 图像分类,检测及分割是计算机视觉领域的三大任务。图像分类模型(详情见[这里](https://medium.com/comet-app/review-of-deep-learning-algorithms-for-image-classification-5fdbca4a05e2))是将图像划分为单个类别,通常对应于图像中最突出的物体。但是现实世界的很多图片通常包含不只一个物体,此时如果使用图像分类模型为图像分配一个单一标签其实是非常粗糙的,并不准确。对于这
机器学习算法工程师
2018/03/30
2.4K0
重磅|基于深度学习的目标检测综述(一)
连LeCun都推荐的Fashion-MNIST数据集,是这位华人博士的成果
允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI 上周六,量子位在报道中提到德国时尚圈的科学家,推出一个名叫Fashion-MNIST的数据集。这个数据集里都是衣裤鞋包,但它的目标是替代MN
量子位
2018/03/27
1.5K0
连LeCun都推荐的Fashion-MNIST数据集,是这位华人博士的成果
TensorFlow中最大的30个机器学习数据集
largest tensorflow datasets for machine learning
OpenCV学堂
2020/07/15
1.1K0
16个车辆信息检测数据集收集汇总
UA-DETRAC是一个具有挑战性的现实世界多目标检测和多目标跟踪基准。数据集由 Cannon EOS 550D摄像头在中国北京和天津24个不同地点拍摄的10个小时的视频组成。视频以每秒25帧的速度录制,分辨率为960540像素。在UA-DETRAC数据集中,有超过14万帧和8250辆车被人工标注,总共标记了121万物体的边界盒。我们还对目标检测和多目标跟踪方面的最新方法进行基准测试,以及本网站中详细介绍的评估指标。
用户9925864
2022/07/27
9.5K0
16个车辆信息检测数据集收集汇总
数据收集渠道_数据挖掘数据集
NLP方向:Hugging Face – The AI community building the future.
全栈程序员站长
2022/11/03
1.2K0
数据收集渠道_数据挖掘数据集
忘掉PS吧!欢迎进入修图的神经网络时代
左边是原图,右边是修图。是不是觉得美女与右边图片的背景搭在一起,更有动感和帅气。可是不会修图啊,肿么办? 今天让我们来看一个有意思的AI应用,让不会PS的你,也能立马拥有吊炸天的修图超能力,没准还能分分钟修完上万张图,秒杀所有PS修图大神。 以下是机器学习大神Gidi Shperber讲述,他是到底一步步把这个模型给搞出来的详细过程。你要不要自己也来训练一个呢? 翻译 | AI科技大本营(rgznai100) 参与 | shawn 引言 在机器学习领域摸爬滚打的这几年中,我一直想开发一个实用的机器学
AI科技大本营
2018/04/26
1.4K0
忘掉PS吧!欢迎进入修图的神经网络时代
30个最大的机器学习TensorFlow数据集
TensorFlow由Google Brain的研究人员创建,是用于机器学习和数据科学的最大的开源数据库之一。它是完整的初学者和经验丰富的数据科学家的端到端平台。TensorFlow库包括工具,预先训练的模型,机器学习指南以及一系列开放数据集。为了帮助找到所需的训练数据,本文将简要介绍一些用于机器学习的最大TensorFlow数据集。将以下列表分为图像,视频,音频和文本数据集。
代码医生工作室
2020/07/13
1.4K0
ICCV 2023 数据集分享(含水下图像视频、阴影去除、目标检测跟踪分割、交互、超分等)
本文整理了收录于 ICCV 2023 会议的数据集论文,涵盖了水下图像视频、阴影去除、目标检测、跟踪分割、交互、超分辨率等领域。
CV君
2023/11/01
1.3K0
ICCV 2023 数据集分享(含水下图像视频、阴影去除、目标检测跟踪分割、交互、超分等)
CVPR2021提出的一些新数据集汇总
一些新发布的数据集可以提供一个窗口,通过这些数据集可以了解试图解决的问题的复杂程度。公共领域中新发布的数据集可以很好地代表理解计算机视觉的发展以及有待解决的问题的新途径。
计算机视觉
2022/02/16
6330
CVPR2021提出的一些新数据集汇总
数据太少怎么办?试试自监督学习,CV训练新利器,fast.ai新教程,LeCun点评
在多数情况下,训练神经网络都应该从一个预训练(pre-trained)模型开始,然后再对它进行微调。
量子位
2020/02/21
3330
资源 | 25个深度学习开源数据集,have fun !
作者:PRANAV DAR 翻译:Nicola 校对:冯羽 本文共4000字,建议阅读8分钟。 本文介绍了图像处理,自然语言处理,以及音频/语音处理三类25个开源数据集。 简介 深度学习(或生活中的大部分领域)的关键是演练。演练各种问题-从图像处理到语音识别。每个问题都有其独特的细微差别和方法。 但是,哪里可以获得这些数据?现今你看到的很多研究论文都使用通常不向公众开放的专有数据集。而这成为了如果你学习并应用你新掌握的技能的阻碍。 如果你也遇到此问题,我们有解决方案提供给你。我们挑选了一系列公开可用的数
数据派THU
2018/06/13
1K0
在 fast.ai 课堂上,我总结的 8 个深度学习最佳实践
翻译 | 付腾 林立宏 整理 | 凡江 在 2017 年我感到最开心的事情就是,我更多地通过实践来参与最新 AI 的发展,学到了很多的数学知识。这很有趣,但是却没有接触什么实践项目。因此,也没有什么东西能体现我付出的努力。 为了弥补这点,在四月份,我在 AI Grant(https://aigrant.org/ )网站上申请了一个 AI 项目,目标是用 FastText(https://fasttext.cc/ ) 的 skip-gram 模型来为肯尼亚语建模。我获得了初选的决赛资格,但是,却没
AI研习社
2018/03/16
1.4K0
在 fast.ai 课堂上,我总结的 8 个深度学习最佳实践
推荐阅读
相关推荐
【干货】二十五个深度学习相关公开数据集
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档