首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

清华 ACL 2020 长文 | KdConv:多领域知识驱动的中文多轮对话数据

为了进一步推动多领域的知识驱动的多轮对话研究并且弥补中文语料的缺乏,我们提出了一个中文的多领域的知识驱动的对话数据KdConv (Knowledge-driven Conversation),其使用知识图谱为多轮对话中使用的知识进行标注...为了方便在这个数据上的研究工作,我们提供了几个生成式和检索式的基线对话模型。...KdConv的一个对话样例,下划线的文本是在对话中使用的相关知识。 相比于之前的知识驱动的对话数据,KdConv有三大特点: 1、标注信息精细。...2 数据统计 KdConv 数据相关的知识图谱与对话数据统计信息如下表所示。 ?...KdConv 数据统计信息 3 基线模型 由于精细的标注信息,全面的知识交互,多样的领域覆盖, KdConv数据可用于多种对话任务的研究。

2.3K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【多轮对话】任务型多轮对话数据如何采集

    研究任务型对话系统,首先得从数据采集说起,学术界需要公开的数据来证明模型的效果,工业界更需要以数据为基础来构建更鲁棒的对话系统,那么业界成熟的对话系统数据有哪些呢,对于多轮,如何更科学的采集数据减少错误呢...在数据上用监督学习训练对话模型。[M2M框架图]生成大纲与段落的示例。 [在这里插入图片描述]用户根据M2M生成的outline,来生成真正的对话数据。...数据较多,特别是后面一次会有多个任务的数据,也没有全了解。DstC1: 5个slot(路线,出发点,重点,日期,时间),用户目标在对话过程中不会发生变化。...2020 CCF BDCI 千言:多技能对话:收集了一系列公开的开放域对话数据,并对数据进行了统一的整理以及提供了统一的评测方式,期望从多个技能、多个领域的角度对模型效果进行综合评价目前中文数据看到还比较少...,SMP也出过一些单轮对话数据,总体上还是不如英文丰富。

    2.7K102

    大规模跨领域中文任务导向多轮对话数据及模型CrossWOZ

    本文包含以下内容 2020年刚出的大规模中文多轮对话数据的介绍 多轮对话的一些常见任务 多轮对话的一些常见模型 基本概念 什么是对话? 我:你好! 机器人:你也好! 多轮对话呢?...(用户有两个以上目的(订机票和酒店)要通过对话实现) 中文?突出中文是因为之前的大规模开源多轮对话数据MultiWOZ是英文的。MultiWOZ在推动英文多轮对话诞生了很多研究。...因此这次清华大学计算机系制作了中文数据以填补中文任务导向对话数据的空白。 ?...论文地址:https://arxiv.org/pdf/2002.11893.pdf 数据介绍 数据参数 CrossWOZ包含 6K 个对话,102K 个句子,涉及 5 个领域(景点、酒店、餐馆、地铁...第一个大规模中文跨领域任务导向数据。 在用户端和系统端都有详细的对话状态记录,标注信息全面。 与其他数据的对比 ? 跨领域对话数据样例 ? 数据标注方法 基础数据库的构建。

    2.9K30

    【ACL2020】对话数据Mutual:论对话逻辑,BERT还差的很远

    一言以蔽之,上个时代的对话数据太弱了!!!...数据特点 现有的检索式聊天机器人数据,诸如Ubuntu,Douban,对于给定的多轮对话,需要模型在若干候选回复中,选出最合适的句子作为对话的回复。...由于任务不同,这些现有的推理数据并不能直接帮助指导训练聊天机器人。下图为对话和推理式阅读理解的常用数据: ?...基于目前对话数据的缺陷,Mutual被提出,一个直接针对Response Selection的推理数据数据构建 MuTual基于中国高考英语听力题改编。...现有的检索式对话数据大都没有直接对该问题进行建模,因此我们提出了MuTual数据,针对性的评测模型在多轮对话中的推理能力。

    88110

    基于 CNN 的中文对话情感分析

    数据准备 使用的是中文对话情感分析的一个数据。...下载地址:z17176 这个是数据是来自这篇 paper :Sentiment Classification with Convolutional Neural Networks: an Experimental...作为测试 中文文本的预处理 分词处理 中文文本与英文文本不同,不像英文文本一样,单词与单词之间是有空隙的,所以拿到中文文本(已经去除掉标点符号及其他符号的纯文本)之后,需要进行分词处理。...该数据已经用 jieba 工具处理过分词了,所以就不需要额外处理了。 停用词处理 中文的停用词资源有挺多的,停用词处理主要依据不同的文本或者不同的目的来处理。我的项目中,没有进行停用词处理。...但现在做的是中文文本的分类问题,所以迁移学习这个不合适。

    2.1K30

    中文对话大模型BELLE全面开源!

    来源:高能AI本文约1000字,建议阅读5分钟模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 中文对话大模型开源社区迎来了一名浓眉大眼的新成员!...开源地址:https://github.com/LianjiaTech/BELLE 该项目目前已经开源了如下内容,并且在持续更新中: 150万中文指令微调数据 以Bloomz-7b1-mt(70亿参数...但是这样的技术不应该只被掌握在一家公司手中,因此BELLE项目应运而生了,他们的初衷是为了促进中文对话大模型开源社区的发展。为此,他们在三个方面做了初步的尝试,并已经开源了他们的研究成果。...数据:为了获得大量的指令微调数据,项目团队参考了斯坦福大学的Alpaca项目,并针对中文场景进行了优化,利用ChatGPT生了多样化、高质量的数据,这些数据涵盖了各种应用场景,包括日常对话、知识问答、文本生成等...总结 可以说BELLE的出现,大大促进了中文开源对话模型的发展,基于他们开源的数据和模型,更多的人可以尝试这些模型,更多的研究工作可以更快捷的展开。

    77720

    【开源】度小满中文金融对话大模型

    主要特点: 收集多个领域大量的训练语料,进行了多维度数据清洗和去重,保证数据的量级和质量 从零开始预训练,预训练中动态调整数据配比,模型基座能力较强 结合Self-QA方法构建高质量问答数据,采用混合训练方式进行监督微调...我们使用自己构建并开源的FinanceIQ数据,该数据是一份专业的大模型金融能力评估数据,涵盖了10个金融大类,36个金融小类,总计7173题。评估结果如下表所示。...在中文相关场景下,XuanYuan-6B甚至可超越更大尺寸的LLaMA2-70B模型。 值得注意的是,在上述所有评测中,XuanYuan-6B均进行了考试场景增强,具体细节可见我们的技术报告。...主要特点: “以小搏大”的对话能力:在知识理解、创造、分析和对话能力上,可与千亿级别的模型相媲美 金融领域专家:在预训练和微调阶段均融入大量金融数据,大幅提升金融领域专业能力。...除在固定测试进行评估外,我们非常关注模型在实际对话中的能力,组建专业的人工评测团队将XuanYuan-13B与其他开源系列的70B左右参数模型进行GSB比较,结果显示:在通用评测中的绝大部分指标,XuanYuan

    34510

    利用TfidfVectorizer进行中文文本分类(数据是复旦中文语料)

    其中train存放的是训练,answer存放的是测试,具体看下train中的文件: ? 下面有20个文件夹,对应着20个类,我们继续看下其中的文件,以C3-Art为例: ?...2、数据预处理 (1)将文本路径存储到相应的txt文件中 我们要使用数据,必须得获得文本以及其对应的标签,为了方便我们进行处理,首先将训练集中的txt的路径和测试集中的txt的路径分别存到相应的txt文件中...,具体代码如下: def txt_path_to_txt(): #将训练数据的txt和测试数据的txt保存在txt中 train_path = "/content/drive/My Drive/...张晓凌 ( 中国艺术研究院 美术 研究所 研究员 ) : 我 最早 介入 “ 艺术 与 科学 ” 这个 主题 是 作为 撰稿人 为 这个 展览 搞 一个 专题片 , 一共 五 , 我 写 第一 ,...如果想提高分类的性能,则需要进一步的数据预处理以及模型的调参了。

    1.1K52

    利用RNN进行中文文本分类(数据是复旦中文语料)

    利用TfidfVectorizer进行中文文本分类(数据是复旦中文语料) 1、训练词向量 数据预处理参考利用TfidfVectorizer进行中文文本分类(数据是复旦中文语料) ,现在我们有了分词后的...对训练和测试进行同样的清理后保存: def save(content_list,label_list): path = '/content/drive/My Drive/NLP/dataset/...进行测试,这里我们的测试和验证是同样的: def test(): print("Loading test data...")...(可选),要将训练好的向量和词编号进行对应; 将数据集中的句子中的每个词用编号代替,对标签也进行编号,让标签和标签编号对应; 文本可使用keras限制它的最大长度,标签进行onehot编码; 读取数据...(文本和标签),然后构建batchsize 搭建模型并进行训练和测试; 至此从数据的处理到文本分类的整个流程就已经全部完成了,接下来还是对该数据,使用CNN进行训练和测试。

    1.2K20

    利用transformer进行中文文本分类(数据是复旦中文语料)

    和之前介绍的不同,重构了些代码,为了使整个流程更加清楚,我们要重新对数据进行预处理。 阅读本文,你可以了解中文文本分类从数据预处理、模型定义、训练和测试的整个流程。...一、熟悉数据 数据的格式是这样子的: 基本目录如下: ? 其中train存放的是训练,answer存放的是测试,具体看下train中的文件: ?...fp.read() label = [[label2idx[label]] for label in labels.splitlines()] return data,label 将训练数据拆分为训练和验证...l2Loss = tf.constant(0.0) # 词嵌入层, 位置向量的定义方式有两种:一是直接用固定的one-hot的形式传入,然后和词向量拼接,在当前的数据上表现效果更好...另一种 # 就是按照论文中的方法实现,这样的效果反而更差,可能是增大了模型的复杂度,在小数据上表现不佳。

    4.6K20

    斯坦福公布任务导向型多领域多轮对话数据

    一般来说,如果做任务导向型对话的程序员训练模型数据不够大且不够多样,那么接下来的工作很有可能受阻。 为了帮助缓解这个问题,斯坦福自然语言处理小组公布了一组语料库。...这组数据包含了3031条多轮对话数据,内容主要分布在日程安排、天气信息检索和兴趣点导航。 这个对话是通过知识库建立的,确保系统对自然语言处理得灵活流利。...数据与人类的对话差不多是下面的画风—— ? 在这个数据集中,用户有两种可能的模式:驾驶员模式和助手模式。...驾驶员只负责提供一组对话,并根据之前的历史对话消息和指定任务将对话进行下去。这些任务是通过3到5个可选值(比如时间、日期、地点等)随机指定的。 ?...△ 助手模式示意图 数据集中的数据大致可以分为以下几类: ? 每个领域slots的类型和数量统计如下: ?

    1.1K90
    领券