首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TensorFlow中最大的30个机器学习数据集

TensorFlow中最大的30个机器学习数据集

作者头像
OpenCV学堂
发布于 2020-07-15 02:52:48
发布于 2020-07-15 02:52:48
1.1K0
举报

作者:Limarc Ambalina 编译:ronghuaiyang

导读

包括图像,视频,音频,文本,非常的全。

largest tensorflow datasets for machine learning

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台,适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南,以及开放数据集的语料库。为了帮助你找到所需的训练数据,本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。

图像数据集

1、CelebA: 最大的公开的人脸图像数据集之一,名人脸属性数据集(CelebA)包含超过20万名名人的图像。

celebrity face images dataset

每幅图像包含5个面部特征点和40个二值属性标注。

2、Downsampled Imagenet:该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率:32 x 32和64 x 64。

3、Lsun – Lsun是一个大型图像数据集,用于帮助训练模型理解场景。数据集包含超过900万张图像,这些图像被划分为场景类别,例如卧室、教室和餐厅。

4、Bigearthnet – Bigearthnet是另一个大型数据集,包含来自Sentinel-2卫星的航空图像。每幅图像覆盖1.2 km x 1.2 km的地面。每张图像包括43个不平衡标签。

5、Places 365 – 顾名思义,Places 365包含了180多万张不同地方或场景的图片。其中包括办公室、码头和小屋。Places 365是用于场景识别任务的最大数据集之一。

6、Quickdraw Bitmap – Quickdraw数据集是Quickdraw玩家社区绘制的图像集合。它包含了500万幅横跨345个类别的画作。这个版本的Quickdraw数据集包括28 x 28灰度格式的图像。

7、SVHN Cropped – 来自斯坦福大学的街景门牌号(SVHN)是一个TensorFlow数据集,用来训练数字识别算法。它包含600,000个真实世界的图像数据样本,这些数据被裁剪成32 x 32像素。

8、VGGFace2 – 最大的人脸图像数据集之一,VGGFace2包含从谷歌搜索引擎下载的图像。这些脸因年龄、姿势和种族而不同。每个受试者平均有362张图像。

9、COCO – 由谷歌,FAIR, Caltech和更多的合作者制作,COCO是世界上最大的标记图像数据集之一。它用于目标检测、分割和图像描述任务。

Coco TensorFlow Dataset

数据集包含330,000张图像,其中200,000张已被标注。在这些图像中有分布在80个类别中的150万个物体实例。

10、Open Images Challenge 2019 – 包含大约900万幅图像,这个数据集是在线可用的最大的标注图像数据集。包含图像级标签、物体边框和物体分割掩码,以及视觉关系。

11、Open Images V4 – 这个数据集是上面提到的开放图像数据集的另一个迭代。V4有600个不同的物体类包含1460万个边框。边界框是由人工标注人员手动绘制的。

12、AFLW2K3D – 该数据集包含2000个面部图像,所有标注了3D人脸特征点。它是用来评估三维人脸特征点检测模型的。

视频数据集

13、UCF101 – 来自中佛罗里达大学的UCF101是一个用来训练动作识别模型的视频数据集。该数据集有13,320个跨越101个动作类别的视频。

14、BAIR Robot Pushing – 来自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000个机器人推动运动的示例视频。

15、Moving MNIST – 该数据集是MNIST基准数据集的一个变体,Moving MNIST包含10,000个视频。

16、EMNIST – 扩展MNIST包含从原始MNIST数据集转换为28 x 28像素格式的数字。

音频数据集

17、CREMA-D – CREMA-D是为情感识别任务而创建的,包括声音情感表达。这个数据集包含7,442个音频片段,由91个不同年龄、种族和性别的演员配音。

18、Librispeech – Librispeech是一个简单的音频数据集,它包含1000小时的英语语音,这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

19、Libritts – 这个数据集包含大约585小时的英语演讲,是在谷歌Brain team成员的协助下准备的。Libritts最初是为文本到语音(TTS)研究设计的,但可以用于各种语音识别任务。

20、TED-LIUM – TED- lium是一个包含超过110小时的英语TED演讲的数据集。所有谈话都已抄录下来。

21、VoxCeleb – VoxCeleb是一个用于扬声器识别任务的大型音频数据集,包含来自1,251名扬声器的超过150,000个音频样本。

文本数据集

22、C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web页面数据的开放源码存储库。它有40多种语言,涵盖了7年的数据。

23、Civil Comments – 这个数据集包含了来自50个英语新闻网站的超过180万份公众评论。

24、IRC Disentanglement – 这个TensorFlow数据集包含了来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

25、Lm1b – 这个数据集被称为语言模型基准测试,它包含10亿个单词。它最初是用来衡量统计语言建模的进展。

26、SNLI – 斯坦福自然语言推理数据集是一个包含570,000对人类书写的句子的语料库。所有对都经过人工标记,以达到类别平衡。

27、e-SNLI – 这个数据集是上面提到的SNLI的扩展,它包含了原始数据集的570,000对句子,分类为:entailment,contradiction和neutral。

28、MultiNLI – 以SNLI数据集为模型,MultiNLI包括433,000对句子对,它们都标注了entailment信息。

29、Wiki40b – 这个大规模数据集包括来自40种不同语言的维基百科文章的文本。数据已经被清洗,非内容部分以及结构化对象已经被删除。

30、Yelp Polarity Reviews – 这个数据集包含59.8万个高度两极分化的Yelp评论。它们是从2015年Yelp数据集挑战赛的数据中提取出来的。

—END—

英文原文:https://lionbridge.ai/datasets/tensorflow-datasets-machine-learning/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Torrent文件的解析与转换
BitTorrent协议的种子文件(英语:Torrent file)可以保存一组文件的元数据。这种格式的文件被BitTorrent协议所定义。扩展名一般为“.torrent”。
Rekent
2020/11/24
4.2K0
Torrent文件的解析与转换
Bittorrent 协议浅析(一)元数据文件
时代在变,很多事物慢慢消失在了数据的海洋中,但不会忘记的,时那个以相互交流、分享信息为目的存在的互联网环境,在 BS、 CS 模式盛行的今天,偶尔也要想起 Peer to Peer 存在的意义和必要性,在其存在感越来越低的今天,暂且不论对错,不问优劣,只从技术角度对其进行回味。
青橙.
2023/09/24
1.9K0
Redis源码阅读之rdb.c
REDIS_RDB_ENC_LZF |compressed_len | original_len | compressed_string
chain
2018/08/02
6790
Redis源码阅读之rdb.c
一次对BT种子的追踪小记
过年期间,宅在家里闲来无事,我在网上找各种资源。终于通过自己的不懈努力,找到了一套非常优质的资源:画面高清,中文字幕,每日定期更新十部。
FB客服
2020/02/20
2.5K0
一次对BT种子的追踪小记
OtterCTF 13道内存取证题目详细解析(下)
The reason that we took rick's PC memory dump is because there was a malware infection. Please find the malware process name (including the extension)
ChaMd5安全团队
2018/12/28
4.6K0
python破解zip压缩包密码
曾经,在网上下载过一份“学习资料”,zip格式的一份不小的压缩文件。 费劲巴拉的从“某盘”下载,却发现解压需要“密码”,顿时心里有句不当讲的话… 为了破解压缩文件的密码,我在搜索引擎输入“python zip”两个关键词。 经过过一番总结,发现破解的思路都是一样的,暴力破解。
未名编程
2024/10/12
4170
python破解zip压缩包密码
PDF Explained(翻译)第二章 构建一个简单的PDF
本文是对PDF Explained(by John Whitington)第二章《Building a Simple PDF》的摘要式翻译。
跑马溜溜的球
2021/07/14
1.6K0
PDF Explained(翻译)第二章 构建一个简单的PDF
Python边学边用--BT客户端实现之
以数字开头表示string类型,数字为string长度,长度与string内容以':'分割
py3study
2020/01/09
1.6K0
Python边学边用--BT客户端实现之
mktorrent 制作私人种子 & Deluge 做种
在 Windows OS 上,可以比较方便的使用qBittorrent等软件来制作和发布种子。 怎么在(无GUI)服务器上制作并发布一个种子呢? mktorrent 就是这样一个可以让我们使用命令行的方式来制作种子的工具。
许杨淼淼
2019/12/30
4K0
dex文件解析(第三篇)「建议收藏」
dex文件是Android系统中的一种文件,是一种特殊的数据格式,和APK、jar 等格式文件类似。 能够被DVM识别,加载并执行的文件格式。 简单说就是优化后的android版.exe。每个apk安装包里都有。包含应用程序的全部操作指令以及运行时数据。 相对于PC上的java虚拟机能运行.class;android上的Davlik虚拟机能运行.dex。
全栈程序员站长
2022/08/03
1.8K0
dex文件解析(第三篇)「建议收藏」
《Redis设计与实现》读书笔记(十五) ——Redis RDB文件结构与文件分析
《Redis设计与实现》读书笔记(十五) ——Redis RDB文件结构与文件分析 (原创内容,转载请注明来源,谢谢) 一、RDB文件结构 1、结构概述 rdb文件结构如下图所示:
用户1327360
2018/03/07
1.2K0
《Redis设计与实现》读书笔记(十五)  ——Redis RDB文件结构与文件分析
redis 6源码解析之 ziplist
ziplist中的每个entry都使用一个元数据作为前缀,该元数据包含两部分的信息:首先保存了前一个entry的长度,用于倒序查找;再者保存了entry的编码类型,表示entry的类型,如整数或字符串,当编码类型为字符串时,该字段也表示了字符串的长度。字符串的entry-data的长度就等同于该字符串的长度,而整数的entry-data的长度需要根据编码类型进行判断,并不一定等同于其entry-data字符串的长度(见下文encoding)。一个完整的entry为:
charlieroro
2020/05/08
4690
SQL函数 $EXTRACT
$EXTRACT返回字符串中指定位置的子字符串。 返回的子字符串的性质取决于所使用的参数。
用户7741497
2022/04/02
6710
Python常用函数
and,or,not运算符的优先级按从低到高,not运算拥有最优先级,只比素有运算符低一级
py3study
2020/01/17
1.1K0
一文读懂 Redis 常见对象类型的底层数据结构
Redis 是一个基于内存中的数据结构存储系统,可以用作数据库、缓存和消息中间件。Redis 支持五种常见对象类型:字符串(String)、哈希(Hash)、列表(List)、集合(Set)以及有序集合(Zset),我们在日常工作中也会经常使用它们。知其然,更要知其所以然,本文将会带你读懂这五种常见对象类型的底层数据结构。
肉眼品世界
2020/11/11
8900
一文读懂 Redis 常见对象类型的底层数据结构
使用C++编写一个DHT爬虫,实现从DHT网络爬取BT种子
通过前面两篇文章的科普,相信大家都一定程度上了解了DHT网络和BT种子的相关知识了,不了解也没关系,可以倒回去看下面两篇文章:
全栈程序员站长
2022/08/14
1.9K1
使用C++编写一个DHT爬虫,实现从DHT网络爬取BT种子
走近科学 | ”种子“的前世今生
*本文原创作者:追影人 0x00 前言 “种子”是生命的起点,是未来的希望,同时也解决了无数宅男腐女的寂寞时光。本文将带领各位童鞋了解BT种子(torrent)及P2P网络的运行机制,教您如何更加科学
FB客服
2018/02/08
1.3K0
走近科学 | ”种子“的前世今生
PHP基于闭包思想实现的BT(torrent)文件解析工具实例详解
本文实例讲述了PHP基于闭包思想实现的torrent文件解析工具。分享给大家供大家参考,具体如下: PHP对静态词法域的支持有点奇怪,内部匿名函数必须在参数列表后面加上use关键字,显式的说明想要使用哪些外层函数的局部变量。
用户2323866
2021/07/02
9370
Bittorrent 协议浅析(四)分布式哈希
BitTorrent 是一种用于分发文件的协议,元数据文件采用 bencode 编码,分片进行 SHA-1 哈希计算比对,并介绍元数据文件数据结构,通过 HTTP 请求由 Trakcer 交换节点信息,节点直接直接进行通讯
青橙.
2023/09/29
9440
Hive - ORC 文件存储格式详细解析
ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩以降低存储空间的消耗,目前也被Spark SQL、Presto等查询引擎支持,但是Impala对于ORC目前没有支持,仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。ORC具有以下一些优势:
王知无-import_bigdata
2020/12/08
13.9K0
Hive - ORC 文件存储格式详细解析
相关推荐
Torrent文件的解析与转换
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档