Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TensorFlow中最大的30个机器学习数据集

TensorFlow中最大的30个机器学习数据集

作者头像
OpenCV学堂
发布于 2020-07-15 02:52:48
发布于 2020-07-15 02:52:48
1.1K0
举报

作者:Limarc Ambalina 编译:ronghuaiyang

导读

包括图像,视频,音频,文本,非常的全。

largest tensorflow datasets for machine learning

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台,适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南,以及开放数据集的语料库。为了帮助你找到所需的训练数据,本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。

图像数据集

1、CelebA: 最大的公开的人脸图像数据集之一,名人脸属性数据集(CelebA)包含超过20万名名人的图像。

celebrity face images dataset

每幅图像包含5个面部特征点和40个二值属性标注。

2、Downsampled Imagenet:该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率:32 x 32和64 x 64。

3、Lsun – Lsun是一个大型图像数据集,用于帮助训练模型理解场景。数据集包含超过900万张图像,这些图像被划分为场景类别,例如卧室、教室和餐厅。

4、Bigearthnet – Bigearthnet是另一个大型数据集,包含来自Sentinel-2卫星的航空图像。每幅图像覆盖1.2 km x 1.2 km的地面。每张图像包括43个不平衡标签。

5、Places 365 – 顾名思义,Places 365包含了180多万张不同地方或场景的图片。其中包括办公室、码头和小屋。Places 365是用于场景识别任务的最大数据集之一。

6、Quickdraw Bitmap – Quickdraw数据集是Quickdraw玩家社区绘制的图像集合。它包含了500万幅横跨345个类别的画作。这个版本的Quickdraw数据集包括28 x 28灰度格式的图像。

7、SVHN Cropped – 来自斯坦福大学的街景门牌号(SVHN)是一个TensorFlow数据集,用来训练数字识别算法。它包含600,000个真实世界的图像数据样本,这些数据被裁剪成32 x 32像素。

8、VGGFace2 – 最大的人脸图像数据集之一,VGGFace2包含从谷歌搜索引擎下载的图像。这些脸因年龄、姿势和种族而不同。每个受试者平均有362张图像。

9、COCO – 由谷歌,FAIR, Caltech和更多的合作者制作,COCO是世界上最大的标记图像数据集之一。它用于目标检测、分割和图像描述任务。

Coco TensorFlow Dataset

数据集包含330,000张图像,其中200,000张已被标注。在这些图像中有分布在80个类别中的150万个物体实例。

10、Open Images Challenge 2019 – 包含大约900万幅图像,这个数据集是在线可用的最大的标注图像数据集。包含图像级标签、物体边框和物体分割掩码,以及视觉关系。

11、Open Images V4 – 这个数据集是上面提到的开放图像数据集的另一个迭代。V4有600个不同的物体类包含1460万个边框。边界框是由人工标注人员手动绘制的。

12、AFLW2K3D – 该数据集包含2000个面部图像,所有标注了3D人脸特征点。它是用来评估三维人脸特征点检测模型的。

视频数据集

13、UCF101 – 来自中佛罗里达大学的UCF101是一个用来训练动作识别模型的视频数据集。该数据集有13,320个跨越101个动作类别的视频。

14、BAIR Robot Pushing – 来自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000个机器人推动运动的示例视频。

15、Moving MNIST – 该数据集是MNIST基准数据集的一个变体,Moving MNIST包含10,000个视频。

16、EMNIST – 扩展MNIST包含从原始MNIST数据集转换为28 x 28像素格式的数字。

音频数据集

17、CREMA-D – CREMA-D是为情感识别任务而创建的,包括声音情感表达。这个数据集包含7,442个音频片段,由91个不同年龄、种族和性别的演员配音。

18、Librispeech – Librispeech是一个简单的音频数据集,它包含1000小时的英语语音,这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

19、Libritts – 这个数据集包含大约585小时的英语演讲,是在谷歌Brain team成员的协助下准备的。Libritts最初是为文本到语音(TTS)研究设计的,但可以用于各种语音识别任务。

20、TED-LIUM – TED- lium是一个包含超过110小时的英语TED演讲的数据集。所有谈话都已抄录下来。

21、VoxCeleb – VoxCeleb是一个用于扬声器识别任务的大型音频数据集,包含来自1,251名扬声器的超过150,000个音频样本。

文本数据集

22、C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web页面数据的开放源码存储库。它有40多种语言,涵盖了7年的数据。

23、Civil Comments – 这个数据集包含了来自50个英语新闻网站的超过180万份公众评论。

24、IRC Disentanglement – 这个TensorFlow数据集包含了来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

25、Lm1b – 这个数据集被称为语言模型基准测试,它包含10亿个单词。它最初是用来衡量统计语言建模的进展。

26、SNLI – 斯坦福自然语言推理数据集是一个包含570,000对人类书写的句子的语料库。所有对都经过人工标记,以达到类别平衡。

27、e-SNLI – 这个数据集是上面提到的SNLI的扩展,它包含了原始数据集的570,000对句子,分类为:entailment,contradiction和neutral。

28、MultiNLI – 以SNLI数据集为模型,MultiNLI包括433,000对句子对,它们都标注了entailment信息。

29、Wiki40b – 这个大规模数据集包括来自40种不同语言的维基百科文章的文本。数据已经被清洗,非内容部分以及结构化对象已经被删除。

30、Yelp Polarity Reviews – 这个数据集包含59.8万个高度两极分化的Yelp评论。它们是从2015年Yelp数据集挑战赛的数据中提取出来的。

—END—

英文原文:https://lionbridge.ai/datasets/tensorflow-datasets-machine-learning/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
TensorFlow最出色的30个机器学习数据集
英语原文《 30 Largest TensorFlow Datasets for Machine Learning 》
公众号机器学习与AI生成创作
2020/08/28
6510
30个最大的机器学习TensorFlow数据集
TensorFlow由Google Brain的研究人员创建,是用于机器学习和数据科学的最大的开源数据库之一。它是完整的初学者和经验丰富的数据科学家的端到端平台。TensorFlow库包括工具,预先训练的模型,机器学习指南以及一系列开放数据集。为了帮助找到所需的训练数据,本文将简要介绍一些用于机器学习的最大TensorFlow数据集。将以下列表分为图像,视频,音频和文本数据集。
代码医生工作室
2020/07/13
1.5K0
【数据集】机器学习数据集汇总(附下载地址)
(Stanford)69G大规模无人机(校园)图像数据集【Stanford】 http://cvgl.stanford.edu/projects/uav_data/
zenRRan
2020/02/18
5.8K0
常用的20个计算机视觉开源数据集总结
计算机视觉是人工智能的一个领域,它训练计算机解释和理解视觉世界。利用来自相机和视频的字图像以及深度学习模型,机器可以准确地识别和分类物体,然后对它们“看到的”做出反应。
deephub
2022/11/11
1.9K0
常用的20个计算机视觉开源数据集总结
数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源
网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:麻烦。
量子位
2019/04/23
9530
数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源
收藏 | 全网最大机器学习数据集,视觉、NLP、音频都在这了
每年都有很多大型、高质量的数据集发布,其中大多数数据集都发布在各自的网站上,通过谷歌搜索很难找到所有这些数据集。
CDA数据分析师
2019/05/09
1.1K0
收藏 | 全网最大机器学习数据集,视觉、NLP、音频都在这了
500款各领域机器学习数据集,总有一个是你要找的
金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 http://dataju.cn/Dataju/web/datasetInstanceDetail/344 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/340
小莹莹
2018/04/20
4.4K0
20用于深度学习训练和研究的数据集
数据集在计算机科学和数据科学中发挥着至关重要的作用。它们用于训练和评估机器学习模型,研究和开发新算法,改进数据质量,解决实际问题,推动科学研究,支持数据可视化,以及决策制定。数据集提供了丰富的信息,用于理解和应用数据,从而支持各种应用领域,包括医疗、金融、交通、社交媒体等。正确选择和处理数据集是确保数据驱动应用成功的关键因素,对于创新和解决复杂问题至关重要。因此,数据集不仅是技术发展的基础,也是推动科学进步和社会决策制定的强大工具。
deephub
2023/09/14
7290
20用于深度学习训练和研究的数据集
21个深度学习开源数据集分类汇总
本文收集整理了21个国内外经典的开源数据,包含了目标检测、图像分割、图像分类、人脸、自动驾驶、姿态估计、目标跟踪等方向。
3D视觉工坊
2022/01/21
3.9K0
21个深度学习开源数据集分类汇总
闭眼推荐,9 个不能错过的机器学习数据集
内容一览:本期整理了 HyperAI超神经官网近期更新的 9 个数据集,涉及人脸识别、姿态估计、自动驾驶三个领域。
HyperAI超神经
2022/11/29
8740
闭眼推荐,9 个不能错过的机器学习数据集
资源 | 机器学习高质量数据集大合辑
在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。
大数据文摘
2018/11/23
7900
玩机器学习要知道哪些开源数据库?
开发 AI 和机器学习系统从来没有像现在这样方便。 类似于 TensorFlow、Torch 和 Spark 这样的开源工具,在 AI 开发者群体中已是无处不在。再加上亚马逊 AWS、Google Cloud 等云服务带来的海量计算能力,将来使用笔记本电脑来训练 ML 模型或许不再难以想象。 公众对 AI 的遐想,总忽视了数据的角色。但海量被标记、注解过的数据,是当下 AI 革命当之无愧的主要推手之一。业内研究团队和公司机构,均明白“数据民主化”的意义——使任何开发者都能获取高质量的数据来训练、测试模型,是
AI研习社
2018/03/19
1K0
玩机器学习要知道哪些开源数据库?
资源 | 这是一份非常全面的开源数据集,你,真的不想要吗?
选自Medium 作者:Bharath Raj 机器之心编译 参与:高璇、王淑婷 近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~) 最近新增数据集 开源生物识别数据:http://openbiometrics.org/ Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。 地址:https://resea
机器之心
2018/09/20
7860
【干货】二十五个深度学习相关公开数据集
(选自Analytics Vidhya;作者:Pranav Dar;磐石编译) 目录 介绍 图像处理相关数据集 自然语言处理相关数据集 语音处理相关数据集 Supplement 一.介绍 通常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。 然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新的理论方法往往就成了难题。 如果你也遇到了这样的问题,接下来我们会提供了一系列可用
磐创AI
2018/04/24
1.8K0
【干货】二十五个深度学习相关公开数据集
[转载] 机器学习数据集统计系列一
作者:宋天龙 链接:https://www.zhihu.com/question/63383992/answer/222718972 来源:知乎
marsggbo
2018/12/12
1.3K0
23 个优秀的机器学习训练公共数据集
作者 | Nikola M. Zivkovic 译者 | 王强 策划 | 凌敏 本文最初发布于rubikscode.com网站,经原作者授权由 InfoQ 中文站翻译并分享。 Iris 数据集的那些示例你是不是已经用腻了呢?不要误会我的意思,Iris 数据集作为入门用途来说是很不错的,但其实网络上还有很多有趣的公共数据集可以用来练习机器学习和深度学习。在这篇文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。 以下是这 23 个公共数据集: 帕
深度学习与Python
2023/04/01
1.4K0
23 个优秀的机器学习训练公共数据集
卧槽!ImageNet验证集6%的标签都是错!基于这些数据集的论文尴尬了!
众所周知,测试集是我们拿来衡量机器学习模型性能的基准。如果测试集错误百出,我们得‍到的性能数据也会存在很大偏差。‍
昱良
2021/04/16
1.4K0
资源 | 25个深度学习开源数据集,have fun !
作者:PRANAV DAR 翻译:Nicola 校对:冯羽 本文共4000字,建议阅读8分钟。 本文介绍了图像处理,自然语言处理,以及音频/语音处理三类25个开源数据集。 简介 深度学习(或生活中的大部分领域)的关键是演练。演练各种问题-从图像处理到语音识别。每个问题都有其独特的细微差别和方法。 但是,哪里可以获得这些数据?现今你看到的很多研究论文都使用通常不向公众开放的专有数据集。而这成为了如果你学习并应用你新掌握的技能的阻碍。 如果你也遇到此问题,我们有解决方案提供给你。我们挑选了一系列公开可用的数
数据派THU
2018/06/13
1.1K0
学习笔记TF067:TensorFlow Serving、Flod、计算加速,机器学习评测体系,公开数据集
本文介绍了TensorFlow的发展历史、生态系统、基本概念、原理、实战案例、性能测试、与其他框架的对比以及未来的发展方向。作者希望通过对TensorFlow的深入剖析,使读者能够快速掌握TensorFlow的核心思想和功能。
利炳根
2017/11/15
2.2K0
大数据数据集下载_免费数据库有哪些
“聚数据”平台整理了网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。
全栈程序员站长
2022/11/03
1.4K0
推荐阅读
相关推荐
TensorFlow最出色的30个机器学习数据集
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档