VidProM,由悉尼科技大学与浙江大学联合研发,系首个大规模真实用户文本到视频提示数据集,包含167万个独特的文本到视频提示和669万个由四种最先进的扩散模型生成的视频。该数据集不仅提供了大量的视频内容,还包括了与每个提示相关的NSFW(Not Safe For Work)概率、3072维的提示嵌入以及额外的相关元数据。其构建过程包括收集源HTML文件、提取和嵌入文本提示,为其分配NSFW概率,爬取和生成视频,最后通过筛选出语义上唯一的提示。VidProM的发布旨在推动文本到视频生成领域的研究,涵盖模型评估、高效视频生成、假视频检测和视频版权检测等方面,为研究人员提供了宝贵的资源来探索和开发新的文本到视频生成技术。
详情请参见五号雷达:https://www.5radar.com/
数据集地址: https://github.com/WangWenhao0716/VidProM
领取专属 10元无门槛券
私享最新 技术干货