首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >跨语言复杂问答数据集Mintaka发布

跨语言复杂问答数据集Mintaka发布

原创
作者头像
用户11764306
发布2025-12-18 19:34:33
发布2025-12-18 19:34:33
1190
举报

问题回答(QA)是机器学习任务,旨在学习预测问题的答案。例如,给定问题“娜塔莉·波特曼出生在哪里?”,QA模型可以预测答案“耶路撒冷”,这使用了网络文章、知识图谱中的事实或模型内部存储的知识。这是一个简单问题的例子,因为它可以通过单一事实(例如维基百科页面)来回答。

并非所有问题都是简单的。例如,“哪部电影的预算更高,《泰坦尼克号》还是《黑衣人II》?”是一个复杂问题,因为它需要查找两个不同的事实(《泰坦尼克号》| 预算 | 2亿美元 和 《黑衣人II》| 预算 | 1.4亿美元),然后进行比较计算(2亿美元 > 1.4亿美元)。虽然许多最先进的问题回答模型在简单问题上表现良好,但复杂问题仍然是一个开放性问题。其中一个原因是缺乏数据集。大多数现有的QA数据集要么是“规模大但简单”,要么是“复杂但规模小”,要么是“规模大且复杂但由机器生成,因此不够自然”。此外,大多数QA数据集仅支持英语。

为了帮助弥合这一差距,某中心研究团队公开发布了一个新的数据集:Mintaka。该数据集被描述在一篇提交给今年国际计算语言学会议(COLING)的论文中。Mintaka是一个大规模、复杂、自然且多语言的问题回答数据集,包含用英语收集的20,000个问题,并已专业翻译成八种语言:阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语。该数据集还通过将问题和答案文本中的实体链接到Wikidata ID,将其建立在Wikidata知识图谱之上。

构建数据集

我们将复杂问题定义为任何需要超越单一事实查询操作的问题。Mintaka是使用某众包平台(MTurk)构建的。首先,设计了一个任务来引出复杂但自然的问题。要求工作人员编写问题-答案对,并属于以下复杂度类型之一:

  • 计数(例如,Q:有多少宇航员曾当选为国会议员?A:4)
  • 比较(例如,Q:勃朗峰比雷尼尔山高吗?A:是)
  • 最高级(例如,Q:《饥饿游戏》中最年轻的贡品是谁?A:Rue)
  • 序数(例如,Q:谁是托勒密埃及的最后一位统治者?A:克利奥帕特拉)
  • 多跳推理(例如,Q:赢得第50届超级碗的球队的四分卫是谁?A:佩顿·曼宁)
  • 交集(例如,Q:哪部电影由丹尼斯·维伦纽瓦导演并蒂莫西·柴勒梅德主演?A:《沙丘》)
  • 差异(例如,Q:耀西没有出现在哪款马里奥赛车游戏中?A:Mario Kart Live: Home Circuit)
  • 是/否(例如,Q:Lady Gaga和Ariana Grande合作过歌曲吗?A:是。)
  • 通用(简单事实查询)(例如,Q:迈克尔·菲尔普斯出生在哪里?A:马里兰州巴尔的摩市)

问题-答案对仅限于八个类别:电影、音乐、体育、书籍、地理、政治、视频游戏和历史。它们以自由文本形式收集,对使用的来源没有限制。

接下来,创建了一个实体链接任务。工作人员查看来自前一个任务的问题-答案对,并被要求识别或验证问题或答案中的实体,并提供来自维基百科条目的支持证据。例如,给定问题“《逃离德黑兰》赢得了多少奥斯卡奖?”,工作人员可以识别电影《逃离德黑兰》作为一个实体并链接到其Wikidata URL。

Mintaka问题示例如下:

  • Q:哪部吉卜力工作室的电影在烂番茄上的评分最低?A:《阿雅与魔女》
  • Q:富兰克林·D·罗斯福首次当选时,距离他所在政党上一次赢得总统选举已经过去了多久?A:16年
  • Q:红辣椒乐队的哪位成员出现在《惊爆点》中?A:安东尼·基迪斯

结果

为了了解Mintaka在自然度方面与先前QA数据集的比较,在某众包平台(MTurk)上进行了评估,比较了四个数据集:KQA Pro、ComplexWebQuestions (CWQ)、DROP和ComplexQuestions (CQ)。工作人员会看到五个问题(每个数据集一个),并被要求将它们从1(最不自然)到5(最自然)进行排名。平均而言,Mintaka的自然度排名高于其他数据集。这表明,Mintaka问题被认为比自动生成或受限于特定段落的问题更自然。

还评估了使用Mintaka训练的八个基线QA模型。表现最好的是用于“闭卷问答”的语言模型T5,其hits@1得分为38%。基线结果表明,Mintaka是一个具有挑战性的数据集,在模型设计和训练过程方面还有很大的改进空间。

Mintaka通过具备大规模、复杂、自然引出和多语言特性,弥合了QA数据集领域的一个重大空白。随着Mintaka的发布,希望鼓励研究人员继续推动问题回答模型,以处理更多语言中的更复杂问题。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 构建数据集
  • 结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档