前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >论文阅读笔记《CAsT-19: A Dataset for Conversational Information Seeking》

论文阅读笔记《CAsT-19: A Dataset for Conversational Information Seeking》

作者头像
种花家的奋斗兔
发布2021-02-02 16:44:32
7770
发布2021-02-02 16:44:32
举报
文章被收录于专栏:NLP小白的学习历程

CAsT-19: A Dataset for Conversational Information Seeking

SIGIR-2020

paper link:https://dl.acm.org/doi/abs/10.1145/3397271.3401206

Conversational search benchmark at TREC:http://www.treccast.ai/

1.简介

CAsT-19是一个支持对话信息检索(对话式检索)研究的新数据集,该数据集共有来自TREC Complex Answer Retrieval(CAR)和MS MARCO的38,426,252篇passage,80个信息检索对话(30train,50test)每个对话9-10个问题。对话中会宽泛地讨论一个Topic,或者深入探讨子话题。问题中包含了省略,隐式上下文,话题转换以及其他人类对话特征,因此,问题不能被孤立得理解。

CAsT-19 通过将对话信息检索定义为一项需要理解问题上下文(对话历史)才能有效选择文章的任务,来促进对话信息搜索的研究。它关注于用户建模先前检索结果的分析问题转化为有效查询,以及其他难以用现有数据集研究的主题。

2. Background

目前针对该邻域的数据集规模小,或者应用范围窄,难以重用和推广使用。

数据建模方法:

针对一个Topic,用户使用对话助手 (Conversational Assistant)来探索或学习该主题,其中包含了一些列question,这些question共同代表了一个复杂的信息需求,而一个简单的答案或者单个响应(response)无法满足需求,每个Topic的对话中包含了典型的对话组成部分如省略,回指以及隐含上下文等;同时还有典型的对话结构,如深入了解Topic,宽泛的探索Topic,转移关注点,上下文切换等。每个回答被限制在一个简短的passage,由对话助手返回或者传递给下文。

3.数据集构建

**数据集构建信息需求:**复杂的(需要多轮的细化)、多样化的(不同的信息类别)、开放领域的(不需要专家领域知识的访问)和可回答的(在集合中足够的覆盖)。主题被设计成信息(而不是任务),不需要时间或外部背景,不包含个人或主观的决定,避免敏感或有争议的主题,不是小众(即,是普遍感兴趣的),也不太宽泛。

指导方针:对话序列的编写是为了模仿“真实”对话的特征,使用以下指导原则

•应有连贯过渡的问题。

•应有共同的自然语言特征,包括关联、遗漏和省略。

•应有子主题,可以通过广度优先(“探索”)、深度优先(“钻取”)或其他策略进行遍历。

•有些主题会在子主题之间进行比较。

•大多数话题转变需要的不仅仅是一个简短的回答(例如,一个简单的事实是不够的)。

•就复杂性而言,大多数对话应依赖上文。

Topic示例如下:

在这里插入图片描述
在这里插入图片描述

passage来源于TREC CAR和MS MARCO(https://microsoft.github.io/msmarco/)

4. 结论

CAsT-19是第一次尝试构建的针对对话式信息检索任务的可重用数据集,具有真实世界中的对话结构和信息检索过程,对于信息检索领域的研究者研究对话式检索提供了方便。同时,该数据集揭示了对话式检索的结构,一些开放性的研究问题以及为该研究进行评估时所遇到的问题。CAsT-19数据集使用静态对话序列,其中下一个问题基于用户的兴趣,而不是系统的预先反应。这种选择使数据集可重用,但阻碍了一些问题的研究。参加TREC 2019 CAsT研讨会的与会者认为,可重用性比动态会话结构更重要,并建议在之后的数据集中保留这一特性。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/01/28 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • CAsT-19: A Dataset for Conversational Information Seeking
    • 1.简介
      • 2. Background
        • 3.数据集构建
          • 4. 结论
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档