腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
R
text2vec
中
绘制
文档
剪枝
对
文本
语料库
的
影响
、
、
在
text2vec
包
中
应用prune_vocabulary后,是否可以检查
语料库
中
还剩下多少
文档
?下面是一个获取数据集和修剪词汇表
的
示例library(data.table)datavectorizerdtm_train = create_dt
浏览 7
提问于2017-03-07
得票数 0
回答已采纳
1
回答
词组消去与矢量生成
、
、
在
text2vec
中
,我能找到
的
关于Stopword
的
唯一函数是“create_vocabulary”。但在
文本
挖掘任务
中
,通常需要消除资源
文档
中
的
断点,然后构建
语料库
或其他进一步
的
过程。如何使用“秒针”来处理使用
text2vec
构建
语料库
、dtm和中医
的
文档
? 我以前使用tm进行
文本
挖掘。它
浏览 7
提问于2016-07-12
得票数 1
回答已采纳
3
回答
与
R
执行
的
差异
、
、
、
、
我
的
任务是将
文档
向量模型投入生产。我是一个
R
用户,所以我
的
原始模型
在
R
中
。我们
的
途径之一是用Python重新创建代码和模型。离线 单词向量是使用
text2vec
包
中
的
函数(即GloVe或GlobalVectors )
浏览 45
提问于2021-06-17
得票数 1
回答已采纳
1
回答
R
text2vec
包
中
的
哈希向量器与停止字删除选项
、
、
、
我使用
R
text2vec
软件包来创建
文档
项矩阵.这是我
的
代码:library(
text2vec
) data(train_sentences,
在
一个研究案例
中
,hash_vectorizer比vocab_vectorizer更适合我。我知道,
在
创建dtm之后,甚至
在
创建令牌时,都可以删除停止语句。特别是,我
对
一种也支持类似于prune_vocabulary()
浏览 0
提问于2018-10-30
得票数 0
回答已采纳
1
回答
如何在GloVe
中
对齐两个
text2vec
模型?
、
、
假设我根据两个不同
的
语料库
训练了两个独立
的
GloVe向量空间模型(
在
R
中使用
text2vec
)。这样做可能有不同
的
原因:两个基本
语料库
可能来自两个不同
的
时期,或者两个非常不同
的
类型,例如。我有兴趣比较这两个
语料库
中
单词
的
用法/意思。如果我简单地将两个
语料库
和它们
的
词汇表连在一起,那就不起作用了(不同用法
的</
浏览 3
提问于2016-11-19
得票数 3
2
回答
将
文档
列表转换为
语料库
、
、
我正在做以下关于
文本
挖掘
的
教程:
在
某个时刻,
文档
列表被转换为
语料库
:doc.corpus<- Corpus(doc.vec) 有没有人能用简单
的
英语给我解释一下(举个例子更好)这里到底发生了什么?
浏览 6
提问于2015-08-07
得票数 1
1
回答
R
- -Text分类
中
的
图解支持向量机模型
、
、
、
我
在
R
中使用e1017
的
支持向量机模型。我使用支持向量机进行
文本
挖掘和分类。因此,我
的
数据是dtm(从
文档
语料库
获得
的
文档
术语矩阵)。我如何开始
绘制
我
的
SVM模型?下面是我
在
代码中用于类预测
的
svm模型。
浏览 1
提问于2014-11-13
得票数 2
1
回答
在
tensorflow中将
文本
文档
转换为tf.data以供顺序阅读
、
、
、
、
在
文本
语料库
中
,有50个
文本
文档
,每个
文档
大约有80行。我想将我
的
语料库
作为输入提供给tensorflow,但我想在系统读取每个
文档
时
对
每个
文档
进行批处理?实际上与用于图像
的
TfRecord相同,我想使用Tf.Data
对
语料库
中
的
每个
文档
进行批处理,以便按顺序读取它? 我该如
浏览 0
提问于2017-11-14
得票数 0
1
回答
基于
text2vec
包
的
文本
预处理与主题建模
、
、
、
、
下面是使用"tm“包
的
代码示例(但我
对
text2vec
包
中
的
代码很感兴趣): doc_topic_prior <- 0.1 #可以根据数据选择吗?MyCorpurs是使用"tm“包获得<em
浏览 0
提问于2017-10-20
得票数 0
回答已采纳
1
回答
R
中
的
字移距离相似性
、
我想要计算
文本
相似度使用放松字移动距离。我有两个不同
的
数据集(
语料库
)。见下文。MRI right leg arteries",), stringsAsFactors = F)v = create_vocabulary(it) %>% prun
浏览 1
提问于2018-09-03
得票数 0
1
回答
剪贴板
中
的
语料库
:将多行作为一个
文档
?
我有大约30k行
的
文本
,平均长度约为50-60个字符。
在
尝试
绘制
术语-
文档
矩阵时,当大量
文本
的
行数较少时,似乎
绘制
效果更好(从相关性
的
角度来看)。例如,如果我在上
绘制
一个TDM,那么当
文本
都在一行时,图中
的
节点似乎具有更好
的
相关性,而不是每行都是一个单独
的
语料库
。有没有一种方法可以通过剪贴板或其他方式
在
浏览 0
提问于2014-10-15
得票数 0
4
回答
使用散列字典
的
归一化函数
在
R
中
不适用于tm包。
、
、
、
、
我想用一个大型外部字典(格式类似于下面的txt变量)
对
波兰
文本
进行分类。我不是幸运
的
,有一个选择波兰流行
的
文本
挖掘包。@DmitriySelivanov
的
答案适用于简单
的
文本
向量。(我还从词典和
语料库
中
删除了波兰方言。)该函数与
文本
向量一起工作得很好。#"Abadan" l
浏览 7
提问于2017-09-08
得票数 2
回答已采纳
1
回答
从剪贴板
绘制
术语
文档
矩阵
我想
绘制
一个术语
文档
矩阵,但在生成一个
语料库
时遇到了困难。我希望能够通过选择
文本
并将其复制到剪贴板来生成一个
语料库
。例如,我希望从150段Lorem数据
中
绘制
一个TDM。library("tm") clipboard2 <- read.table("clipboard",sep="\
r
") 下一部分(,我认为这里有一个
浏览 1
提问于2014-07-15
得票数 0
回答已采纳
1
回答
在
tm 0.7.3
中
合并
语料库
、
、
、
使用针对
R
的
文本
挖掘包tm,
在
版本0.6.2,RVersion3.4.3
中
工作如下:a = "This is the first document."Error in UseMethod("inspect", x) : no applicable method for 'inspect' applied to
浏览 4
提问于2018-01-12
得票数 0
回答已采纳
1
回答
向量通过TfidfVecorizer fit_transform()方法后
的
形状是什么?
、
我正在试图了解以色列国防军
的
一部分-过渡联邦国防军
的
向量器-内部发生了什么。官方
的
科学学习页面说,这个形状是(4,9),它包含4个
文档
,有9个独特
的
功能。但是,
对
我来说没有意义
的
是以色列国防军
的
一部分--以色列国防军
的
公式是: N:N = |D|
语料库
中
浏览 0
提问于2020-11-01
得票数 0
1
回答
NLTK
的
路透社
语料库
中
的
分类是什么意思?
、
、
、
我在做
文本
主题分类时遇到了一些问题。 我
在
NLTK“路透社”
语料库
中
得到了数据。
浏览 5
提问于2014-08-05
得票数 4
1
回答
在
mapper - Hadoop
中
根据
文档
号区分单词计数?
、
、
我正在
R
上编写一个mapper函数(使用Rhipe来实现map-using)。mapper函数应该读取
文本
文件并创建
语料库
。现在,
R
已经有了一个名为tm
的
包,它执行
文本
挖掘和创建DocumentMatrix。如果您想了解更多关于“to”
的
信息,请查看。但是,使用这个包在map-约简中
的
问题是,矩阵被转换成列表,并且很难从这个混乱
的
“列表”
中
创建一个矩阵。我
在
中找到了一种使用map- found创建<
浏览 0
提问于2014-11-26
得票数 0
回答已采纳
1
回答
使用手套预训练手套6B.50.txt作为词嵌入
R
的
基础
、
、
、
我试图
在
r
中用手套将
文本
数据转换成向量,我
的
计划是平均一个句子
的
单词向量,但我似乎无法达到单词向量化
的
阶段。我已经从:和我访问了
text2vec
的
网站下载了gove.6b.50.txt文件和它
的
父zip文件,并尝试运行他们加载维基百科数据
的
示例。但我不认为这是我想要
的
(或者我可能不理解它)。我试图将预先训练好
的
嵌入加载到一个模型
中
,这样如果我有一个句子(比如“我爱
浏览 1
提问于2018-11-17
得票数 1
回答已采纳
8
回答
如何在
R
包
中
显示
语料库
文本
?
、
、
我
在
R
和tm包
中
是全新
的
,所以请原谅我愚蠢
的
问题;-)我如何在
R
包
中
显示纯
文本
语料库
的
文本
?我
在
语料库
中加载了包含323个纯
文本
文件
的
语料库
:corpus <- Corpus(src)
浏览 12
提问于2015-05-25
得票数 10
回答已采纳
1
回答
使用NLTK创建一个新
的
语料库
,它忽略输入文件
中
的
某些字符串,并且不将它们输入到
语料库
中
。
、
、
但是,我想在
文本
文件被
语料库
化之前
对
它们做一些预处理,我想不出如何做到这一点,除非创建一个脚本,先运行每个
文本
文件,然后进行
文本
预处理,保存一个新
的
文本
文件,然后
在
新
的
、后处理
的
文件上创建
语料库
。我想做
的
预处理是非常基本
的
文本
操作: 移除括号内
的
浏览 0
提问于2018-05-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
R语言自然语言处理3:中文语料库构建
Text2Image:一种新的NLP思路
【数据分享】R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化
自然语言处理简明教程
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券