Sakuga-42M Dataset是阿尔伯塔大学联合四川音乐学院构建的首个大规模卡通动画数据集。该数据集包含4200万个关键帧,涵盖了不同的艺术风格、地区和年代,并提供了包括视频-文本描述对、动漫标签、内容分类等在内的全面的语义注释。数据集构建过程中,采用自动化技术从网络中挑选并处理动画视频,涉及视频分割、关键帧提取及字幕生成等环节。通过在Sakuga-42M上的微调,现有的基础模型如Video CLIP、Video Mamba和SVD在卡通相关任务上均有较大性能提升。该数据集旨在支持卡通动画的研究,通过提供大量的关键帧和详细的注释来促进卡通动画理解和生成任务的发展。
详情请参见五号雷达:https://www.5radar.com/result?key=Sakuga-42M
领取专属 10元无门槛券
私享最新 技术干货