首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >常见数据集平台及特点

常见数据集平台及特点

作者头像
索旭东
发布2025-12-30 21:00:08
发布2025-12-30 21:00:08
1260
举报
文章被收录于专栏:具身小站具身小站
  • Kaggle Datasets 平台: 超过 50 万个由用户和企业上传的真实数据集,覆盖 CV、NLP、金融、健康、社交等多个领域。
  • Hugging Face: 超4 万个开源数据集,涵盖文本、图像、语音等多种模态,数据规模超过 15 万亿 Token
  • Common Crawl: 美国非营利组织创建的非结构化、多语言网页开源数据集,总数据量达到 PB 级别,是 OpenAI、Meta 等科技巨头大规模语言模型训练的重要数据来源之一
  • LAION-5B: 德国非营利组织创建的数据集,以图文对数据为主,是全球最大的多模态图文开源数据集之一,超过 58.5 亿个图文对,为 Stable Diffusion 系列模型训练和 AI 图像生成提供了重要的数据支持
  • BooksCorpus: 加拿大多伦多大学开发者创建的数据集,是一个以电子英文书籍为主的文本类数据库,覆盖多领域多学科,超过 1 万本完整书籍,是 GPT 系列模型训练的重要数据来源
  • data.gov: 美国国家开放数据平台,收录超过32 万个数据集,涵盖环境、健康、交通、海洋、能源等领域
  • data.europa.eu: 欧盟统一数据门户,已收录 35 个国家的超过 195 万个数据集,覆盖行政、健康、环境、经济、科技等领域,成为欧盟发展数字主权 、 推 动 AI 创 新 的 战 略 基 础 设 施 。
  • data.gov.uk: 英 国 开 放 数 据 门 户官方公共数据集访问节点,收录超过 5.6 万个数据集,涵盖政府机构发布的民生、经济、环境等领域,聚焦高价值数据集成的 AI 训练生态系统。
  • EuroStat Industry Hub: 欧盟数据集包含所有成员国的完整工业统计数据,覆盖制造业、能源、建筑业等核心产业。
  • PubMed: 美国医疗领域高质量数据集,含超 3800 万篇论文摘要,为医疗大模型提供术语体系与知识框架,支撑临床决策辅助系统、药物研发模型
  • SEC filings: 美国证监会企业财务报告数据库,收录超过1800 万份文件,是目前全球最大、最完整的开源上市公司财务文本库之一,已广泛用于量化投资、自然语言处理预训练、合规监控与生成式 AI 决策系统。
  • 阿里巴巴发布中文问答数据集: 为智能问答系统的研发提供了高质量的训练数据
  • IndustryCorpus1.0: 智源研究院发布中英双语数据集,包含 3.4 TB 开源行业预训练数据,覆盖 18 类行业,为人工智能领域的跨语言研究和应用提供参考。
  • 鹏城国家实验室: 开源百万规模标准化具身智能数据集,超过 300 万样本,覆盖 258 个系列任务和 321064 个具体任务 实例。
  • OpenDataLab: 上海人工智能实验室开源数据平台,提供 5500 多个数据集,涵盖 1500 多种任务类型,总数据量达到80 TB 以上,下载量超过百万次,为行业技术创新提供了丰富的数据支撑。

一些常用的数据集地址:

数据集

来源

场景

官网

KITTI

传感器组

室外

https://www.cvlibs.net/datasets/kitti/

NYU-v2

深度相机

室内

http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

DIODE

传感器组

室内、室外

https://diode-dataset.org/

Make3D

激光雷达

室外

http://make3d.cs.cornell.edu/data.html

Cityspaces

立体相机

室外

https://www.cityscapes-dataset.com/

HRWSI

网络照片

室内、室外

https://github.com/KexianHust/Structure-Guided-Ranking-Loss

BlendedMVS

Mesh模型渲染

室内、室外

https://github.com/YoYo000/Blended-MVS

MegaDepth

网络照片

室外

https://www.cs.cornell.edu/projects/megadepth/

DDAD

激光雷达

室外

https://github.com/TRI-ML/DDAD

SYNS

激光雷达

室内、室外

https://syns.soton.ac.uk/

SYNS-Patches

激光雷达

室内、室外

https://github.com/jspenmar/monodepth benchmark

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 具身小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档