Entity6K是微软和卡内基梅隆大学提出的一个全面的、用于现实世界实体识别的数据集。该数据集包含了5,700个实体,涵盖26个类别,每个实体都有5张经过人工验证的图像及其对应的标注(边界框和文本描述)。构建数据集时,研究人员首先通过Wikipedia等资源编制了一个多样化的实体名单,并将其分为26个类别。随后使用这些实体名称作为搜索查询,在Flickr上收集图像并通过Amazon Mechanical Turk进行图像质量评估,确保图像准确代表其对应的实体。Entity6K数据集对于推动开放领域实体识别技术的发展具有重要意义,它不仅提供了一个多样化和高质量的评估基准,还为未来的研究提供了丰富的资源和挑战。
详情请参见五号雷达:https://www.5radar.com/result?key=Entity6K
领取专属 10元无门槛券
私享最新 技术干货