在搜索领域,BEIR(或等同于 MTEB 排行榜的检索部分)被认为是信息检索社区的“圣杯”,这并不令人惊讶。它是一个结构非常好的基准,涵盖了不同任务的多样化数据集。...数据集语料库大小测试集中的查询数量正向标记的 qrels 数量零分的 qrels 数量语料库中的重复文档数量Arguana8,6741,4061,406096Climate-FEVER5,416,5931,5354,68100DBPedia4,635,92240015,28628,2290FEVER5,416,5686,6667,93700FiQA...表1展示了组成 BEIR 基准的数据集的一些统计数据,例如语料库中的文档数量、测试数据集中的查询数量以及 qrels 文件中的正向/负向(查询,文档)对的数量。...这是衡量模型整体质量的一个很好的代理,但它并不一定能告诉您它对您的特定任务的表现。由于结果是按数据集报告的,值得理解不同数据集与您的搜索任务的相关性,并仅使用最相关的数据集对模型进行重新评分。...例如,它可以帮助您更深入了解搜索返回的错误结果:它可以帮助您发现检索结果中的明显错误、相关错误类别(如误解特定领域术语)等。我们的结果与 MSMARCO 评估的相关研究一致。