在R text2vec中绘制文档剪枝对文本语料库的影响

、、

在text2vec包中应用prune_vocabulary后，是否可以检查语料库中还剩下多少文档？下面是一个获取数据集和修剪词汇表的示例library(data.table)datavectorizerdtm_train = create_dt

浏览 7提问于2017-03-07得票数 0

回答已采纳

1回答

词组消去与矢量生成

、、

在text2vec中，我能找到的关于Stopword的唯一函数是“create_vocabulary”。但在文本挖掘任务中，通常需要消除资源文档中的断点，然后构建语料库或其他进一步的过程。如何使用“秒针”来处理使用text2vec构建语料库、dtm和中医的文档？我以前使用tm进行文本挖掘。它

浏览 7提问于2016-07-12得票数 1

回答已采纳

3回答

与R执行的差异

、、、、

我的任务是将文档向量模型投入生产。我是一个R用户，所以我的原始模型在R中。我们的途径之一是用Python重新创建代码和模型。离线单词向量是使用text2vec包中的函数(即GloVe或GlobalVectors )

浏览 45提问于2021-06-17得票数 1

回答已采纳

1回答

R text2vec包中的哈希向量器与停止字删除选项

、、、

我使用R text2vec软件包来创建文档项矩阵.这是我的代码：library(text2vec) data(train_sentences,在一个研究案例中，hash_vectorizer比vocab_vectorizer更适合我。我知道，在创建dtm之后，甚至在创建令牌时，都可以删除停止语句。特别是，我对一种也支持类似于prune_vocabulary()

浏览 0提问于2018-10-30得票数 0

回答已采纳

1回答

如何在GloVe中对齐两个text2vec模型？

、、

假设我根据两个不同的语料库训练了两个独立的GloVe向量空间模型(在R中使用text2vec )。这样做可能有不同的原因:两个基本语料库可能来自两个不同的时期，或者两个非常不同的类型，例如。我有兴趣比较这两个语料库中单词的用法/意思。如果我简单地将两个语料库和它们的词汇表连在一起，那就不起作用了(不同用法的</

浏览 3提问于2016-11-19得票数 3

2回答

将文档列表转换为语料库

、、

我正在做以下关于文本挖掘的教程：在某个时刻，文档列表被转换为语料库：doc.corpus<- Corpus(doc.vec) 有没有人能用简单的英语给我解释一下(举个例子更好)这里到底发生了什么？

浏览 6提问于2015-08-07得票数 1

1回答

R- -Text分类中的图解支持向量机模型

、、、

我在R中使用e1017的支持向量机模型。我使用支持向量机进行文本挖掘和分类。因此，我的数据是dtm(从文档语料库获得的文档术语矩阵)。我如何开始绘制我的SVM模型？下面是我在代码中用于类预测的svm模型。

浏览 1提问于2014-11-13得票数 2

1回答

在tensorflow中将文本文档转换为tf.data以供顺序阅读

、、、、

在文本语料库中，有50个文本文档，每个文档大约有80行。我想将我的语料库作为输入提供给tensorflow，但我想在系统读取每个文档时对每个文档进行批处理？实际上与用于图像的TfRecord相同，我想使用Tf.Data对语料库中的每个文档进行批处理，以便按顺序读取它？我该如

浏览 0提问于2017-11-14得票数 0

1回答

基于text2vec包的文本预处理与主题建模

、、、、

下面是使用"tm“包的代码示例(但我对text2vec包中的代码很感兴趣)： doc_topic_prior <- 0.1 #可以根据数据选择吗？MyCorpurs是使用"tm“包获得<em

浏览 0提问于2017-10-20得票数 0

回答已采纳

1回答

R中的字移距离相似性

、

我想要计算文本相似度使用放松字移动距离。我有两个不同的数据集(语料库)。见下文。MRI right leg arteries",), stringsAsFactors = F)v = create_vocabulary(it) %>% prun

浏览 1提问于2018-09-03得票数 0

1回答

剪贴板中的语料库:将多行作为一个文档？

我有大约30k行的文本，平均长度约为50-60个字符。在尝试绘制术语-文档矩阵时，当大量文本的行数较少时，似乎绘制效果更好(从相关性的角度来看)。例如，如果我在上绘制一个TDM，那么当文本都在一行时，图中的节点似乎具有更好的相关性，而不是每行都是一个单独的语料库。有没有一种方法可以通过剪贴板或其他方式在

浏览 0提问于2014-10-15得票数 0

4回答

使用散列字典的归一化函数在R中不适用于tm包。

、、、、

我想用一个大型外部字典(格式类似于下面的txt变量)对波兰文本进行分类。我不是幸运的，有一个选择波兰流行的文本挖掘包。@DmitriySelivanov的答案适用于简单的文本向量。(我还从词典和语料库中删除了波兰方言。)该函数与文本向量一起工作得很好。#"Abadan" l

浏览 7提问于2017-09-08得票数 2

回答已采纳

1回答

从剪贴板绘制术语文档矩阵

我想绘制一个术语文档矩阵，但在生成一个语料库时遇到了困难。我希望能够通过选择文本并将其复制到剪贴板来生成一个语料库。例如，我希望从150段Lorem数据中绘制一个TDM。library("tm") clipboard2 <- read.table("clipboard",sep="\r") 下一部分(，我认为这里有一个

浏览 1提问于2014-07-15得票数 0

回答已采纳

1回答

在tm 0.7.3中合并语料库

、、、

使用针对R的文本挖掘包tm，在版本0.6.2，RVersion3.4.3中工作如下：a = "This is the first document."Error in UseMethod("inspect", x) : no applicable method for 'inspect' applied to

浏览 4提问于2018-01-12得票数 0

回答已采纳

1回答

向量通过TfidfVecorizer fit_transform()方法后的形状是什么？

、

我正在试图了解以色列国防军的一部分-过渡联邦国防军的向量器-内部发生了什么。官方的科学学习页面说，这个形状是(4,9)，它包含4个文档，有9个独特的功能。但是，对我来说没有意义的是以色列国防军的一部分--以色列国防军的公式是： N：N = |D|语料库中

浏览 0提问于2020-11-01得票数 0

1回答

NLTK的路透社语料库中的分类是什么意思？

、、、

我在做文本主题分类时遇到了一些问题。我在NLTK“路透社”语料库中得到了数据。

浏览 5提问于2014-08-05得票数 4

1回答

我正在R上编写一个mapper函数(使用Rhipe来实现map-using)。mapper函数应该读取文本文件并创建语料库。现在，R已经有了一个名为tm的包，它执行文本挖掘和创建DocumentMatrix。如果您想了解更多关于“to”的信息，请查看。但是，使用这个包在map-约简中的问题是，矩阵被转换成列表，并且很难从这个混乱的“列表”中创建一个矩阵。我在中找到了一种使用map- found创建<

浏览 0提问于2014-11-26得票数 0

回答已采纳

1回答

使用手套预训练手套6B.50.txt作为词嵌入R的基础

、、、

我试图在r中用手套将文本数据转换成向量，我的计划是平均一个句子的单词向量，但我似乎无法达到单词向量化的阶段。我已经从：和我访问了text2vec的网站下载了gove.6b.50.txt文件和它的父zip文件，并尝试运行他们加载维基百科数据的示例。但我不认为这是我想要的(或者我可能不理解它)。我试图将预先训练好的嵌入加载到一个模型中，这样如果我有一个句子(比如“我爱

浏览 1提问于2018-11-17得票数 1

回答已采纳

8回答

如何在R包中显示语料库文本？

、、

我在R和tm包中是全新的，所以请原谅我愚蠢的问题;-)我如何在R包中显示纯文本语料库的文本？我在语料库中加载了包含323个纯文本文件的语料库：corpus <- Corpus(src)

浏览 12提问于2015-05-25得票数 10

回答已采纳

1回答

使用NLTK创建一个新的语料库，它忽略输入文件中的某些字符串，并且不将它们输入到语料库中。

、、

但是，我想在文本文件被语料库化之前对它们做一些预处理，我想不出如何做到这一点，除非创建一个脚本，先运行每个文本文件，然后进行文本预处理，保存一个新的文本文件，然后在新的、后处理的文件上创建语料库。我想做的预处理是非常基本的文本操作：移除括号内的

浏览 0提问于2018-05-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

词组消去与矢量生成

与R执行的差异

R text2vec包中的哈希向量器与停止字删除选项

如何在GloVe中对齐两个text2vec模型？

将文档列表转换为语料库

R- -Text分类中的图解支持向量机模型

在tensorflow中将文本文档转换为tf.data以供顺序阅读

基于text2vec包的文本预处理与主题建模

R中的字移距离相似性

剪贴板中的语料库:将多行作为一个文档？

使用散列字典的归一化函数在R中不适用于tm包。

从剪贴板绘制术语文档矩阵

在tm 0.7.3中合并语料库

向量通过TfidfVecorizer fit_transform()方法后的形状是什么？

NLTK的路透社语料库中的分类是什么意思？

在mapper - Hadoop中根据文档号区分单词计数？

使用手套预训练手套6B.50.txt作为词嵌入R的基础

如何在R包中显示语料库文本？

使用NLTK创建一个新的语料库，它忽略输入文件中的某些字符串，并且不将它们输入到语料库中。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐