首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

语料库】中文公开聊天语料

该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。...并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。...给出的语料原链接是为了说明该语料的原始出处是在哪里 环境 python3 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。...数据来源及说明 语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词 chatterbot 560 开源项目 按类型分类,质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。...否 xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音 Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。

9.3K50
您找到你想要的搜索结果了吗?
是的
没有找到

毕业设计项目,微博语料情感分析,文本分类

情感分析(Sentimentanalysis),也称意见挖掘(OpinionMining),主要是对带有感情色彩的主观性文本进行分析、处理、归纳然后进行推理的过程,例如对产品,话题,政策的意见[2]。...随着信息时代的到来,越来越多的公司开始组建数据分析团队对自身公司的数据进行挖掘、分析。...姚天昉[3]等人对情感分析的研究现状做了如下总结: ①首先,介绍情感分析的定义和研究的目的; ②从主题的识别、意见持有者的识别、情感描述的选择和情感的分析四个方面进行评述,并介绍了一些成型的系统; ③...讨论中文情感分析的研究现状。...本文主要结合文本情感分析领域的研究结果以及现有的微博情感分析方法,将对微博的情感分析分为四大类:文本预处理、SVM过滤无关信息、进行情感分类、加强分类算法。 ? ? ?

2.4K20

简单NLP分析套路(3)---- 可视化展现与语料收集整理

---- 构思这个系列的初衷是很明显的,之前我是从图论起家搞起了计算机视觉,后来发现深度学习下的计算机视觉没的搞了,后来正好单位的语料很丰富就尝试了NLP 的一些东西,早期非常痴迷于分词等等的技术,后来发现...如果你现在打开微信,可能很多公众号都在推送从哪里爬取了一些语料数据如下图, ? ?...原文链接:透过评论看Runningman 比如豆瓣电影的评论,对某某最新上映的电影做了如下一些分析,看起来花花绿绿很是高端,当然我们也能做,而且要做的更高端一些!!!...当然还有主题模型,句子依存分析,知识图谱等等展现手段 wordCloud # encoding: utf-8 ''' @author: season @contact: shiter@live.cn

89121

文本分析之gensim处理文本【语料库与词向量空间】

文章源自【字节脉搏社区】-字节脉搏实验室 作者-S0u1 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。...因此,由文本内容分析,可以推断文本提供者的意图和目的。...信息检索等一些常用任务的API接口 from gensim import corpora,models,similarities # 导入之前需要先安装 pip install gensim 基本概念 语料...语料中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量。 向量:由一组文本特征构成的列表。...这个不是重点,假如我们已经有了一个处理好的中文分词的文档语料。在此基础上进行后续操作。 ?

1.2K30

人民日报标注语料库(PFR)1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。...,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。...语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。.../w 4.生语料库和熟语料语料库中存放的是在语言的实际使用中真实出现过的语言材料,语料库是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过加工...、分析和处理之后才能成为可用的语料库 生语料库是指收集之后未加工的预料库 相对而言,熟语料库就是经过加工的 5.其他语料库汇总 http://blog.csdn.net/qq

5K80

Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准

首先,从语料来源上讲。...目前有几个公共的多语言并行语料库,主要来自一些国际会议(如European Parliament 、the United Nations)的语料,这些都是专业的人工翻译语料,使用语言较为正式,且仅限于政治主题...用于大规模训练多语言句嵌入的框架 不过由于余弦距离的绝对阈值在全局上并不一致,所以Schwenk在这里所采用的是Margin criterion: 2、语料分析 在超过320亿个句子中挖掘平行语料,计算上是非常昂贵的...在当前版本的CCMatrix语料库中,作者限制为38种语言。...(编者注:这是11月份数据,当时数据集规模为35亿并行语料,下同) CCMatrix:每种语言对的并行语料数量(单位:百万),Margin阈值为1.06。

37410

Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准

首先,从语料来源上讲。...目前有几个公共的多语言并行语料库,主要来自一些国际会议(如European Parliament 、the United Nations)的语料,这些都是专业的人工翻译语料,使用语言较为正式,且仅限于政治主题...用于大规模训练多语言句嵌入的框架 不过由于余弦距离的绝对阈值在全局上并不一致,所以Schwenk在这里所采用的是Margin criterion: 2、语料分析 在超过320亿个句子中挖掘平行语料,计算上是非常昂贵的...在当前版本的CCMatrix语料库中,作者限制为38种语言。...(编者注:这是11月份数据,当时数据集规模为35亿并行语料,下同) CCMatrix:每种语言对的并行语料数量(单位:百万),Margin阈值为1.06。

1.2K20

一种获取NLP语料的基本方法

学习自然语言处理,语料获取是第一步,那么如何抓取和提取语料呢,本文提供一种思路。...维基百科语料库 维基百科会定期把各种语言的百科网页全部打包存储起来,这里我们选择其中的中文维基百科网页,这个文件可以作为中文语料库来使用。...下载其他语言 观察上面https://dumps.wikimedia.org/zhwiki,若我们把 zhwiki 替换为 enwiki,就能找到英文语料,如果替换为 frwiki,就能找到法语语料,依次类推...可以参考 ISO 639-1语言列表,相应替换便能找到对应语料。...为了读取其中的文本信息,我们需要借助提取工具,WikiExtractor 是一款不错的开源提取工具,使用该工具,可以方便地处理语料库,输出为想要的存储格式。

1.8K20

语音识别语料归一化处理的方法

在进行语音识别模型的训练和测试语料收集的过程中,我们需要对收集到的语料进行归一化处理。 收集到的语料应每个命令词或句子单个截下来,对其进行归一化处理。...特别是在语料录制的过程中,由于志愿者的逐渐疲惫,后面录的命令词的声音,可能会偏弱一些。...对语料进行归一化处理的基本原理是:取一段语料中幅度最大的点将其幅度拉大到接近1,记录拉大的比例,再将其他所有点均按这个比例拉伸。.../do_pcm -i in.pcm -o out.pcm --norm对语料进行处理,得到的out.pcm则为一个处理好的语料文件,如: 幅度调整范围是-32767-72767 归一化处理前好的两个语料的对比...(上方为处理前语料的音轨,下方为处理好语料的音轨): 频谱图对比:

11210

Tableau的Explain Data可以使用AI来分析语料库中的任何数据点

为此,Tableau在本月18日发布的最新版本2019.3中宣布了Explain Data的普遍可用性,该版本分析语料库,并强调了驱动任何给定数据点的最相关因素。...“通过Explain Data,我们把人工智能驱动的分析力量带给了每一个人,并使复杂的统计分析变得更容易理解,这样,无论专业知识如何,任何人都可以快速而自信地发现专业问题。”...用户选择他们想要分析的数据点,然后他们可以在交互可视化中查看结果。...在解释数据的过程中,Explain Data需要考虑语料库的每一个维度,以降低人类偏见导致错误的风险,这与传统的解决方案正好相反——传统的解决方案通常会受到人类自身预先假设的限制。 ?...“随着数据量的增加和决策速度的加快,对数据管理的需求从来没有像现在这样至关重要,”Ajenstat表示,“通过Tableau 2019.3,我们将数据管理直接集成到分析体验中,让客户更容易整理和准备分析所需的全部数据

91810

【NLP】Python NLTK获取文本语料和词汇资源

其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析...1 古腾堡语料库 http://www.gutenberg.org/ ? 2 网络和聊天文本 ? 3 布朗语料库 ? 4 路透社语料库 ? 5 就职演说语料库 ? 运行结果: ?...标注文本语料库 :许多语料库都包括语言学标注、词性标注、命名实体、句法结构、语义角色等 其他语言语料库 :某些情况下使用语料库之前学习如何在python中处理字符编码 >>> nltk.corpus.cess_esp.words...文本语料库常见的几种结构: 孤立的没有结构的文本集; 按文体分类成结构(布朗语料库) 分类会重叠的(路透社语料库) 语料库可以随时间变化的(就职演说语料库) 查找NLTK语料库函数help(nltk.corpus.reader...构建完成自己语料库之后,利用python NLTK内置函数都可以完成对应操作,换言之,其他语料库的方法,在自己语料库中通用,唯一的问题是,部分方法NLTK是针对英文语料的,中文语料不通用(典型的就是分词

2K20
领券