腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
Quanteda
中
的
docvar
从
原始
文本
创建
文档
变量
、
、
、
我正在
使用
Quanteda
来分析party平台,这些平台是txt文件。但是,我似乎需要
使用
docvar
在不同
的
组(15个Dem,13个GOP)之间进行比较。当我
使用
textplot_keyness时,我打算对所有
文本
进行比较,但结果是将第一个
文本
与语料库
中
的
所有其他
文本
进行比较。corp20dr_dfm)
浏览 33
提问于2021-01-05
得票数 0
1
回答
语料库组合
中
语料库
的
Docvar
指示器
、
在组合
quanteda
语料库(
使用
加号运算符)时,是否有任何方法可以自动
创建
一个指示
变量
,以标记
文档
来自哪个源语料库?例如,假设你有两个语料库,corpus1和corpus2。您运行以下命令:我想找到一些方法来
创建
一个新
的
docvar
,它指示corpus3
中
每个
文档
来自哪个语料库。有什么想法吗?
浏览 0
提问于2018-07-28
得票数 1
回答已采纳
1
回答
按多
变量
划分
的
全德达群
文档
、
、
我希望能够将我
的
dfm
中
的
文档
按两个
变量
分组--扬声器和week_start。我以前可以
使用
dfm(corpus, groups=c("speaker","week_start")来完成这个任务。这是一个很好
的
和分组
的
文件,按发言人周。 然而,随着
quanteda
包最近
的
更新,我似乎遇到了一些问题。所以我现在先
创建
dfm,然后尝试分组。dfm <- df
浏览 1
提问于2021-05-25
得票数 0
回答已采纳
1
回答
按非唯一
文档
变量
分组
的
Quanteda
textplot_xray作为
文档
、
、
、
、
我有一个由10个
文档
组成
的
Quanteda
语料库,其中几个
文档
出自同一作者之手。我将作者存储在一个单独
的
docvar
列
中
- myCorpus$documents[,"author"]206035myCorpusus, "time"),
浏览 15
提问于2018-02-16
得票数 1
回答已采纳
1
回答
查看与STM主题关联
的
元数据/
文档
变量
、
、
我是
文本
分析
的
新手,并且被
文档
中
似乎没有回答
的
问题所困扰(或者至少我找不到它)。STM估计进行得很好,但对于我
的
项目,我真正想知道
的
是哪个新闻媒体和日期组合与哪些主题相关。
从
本质上讲,
浏览 3
提问于2019-10-27
得票数 2
1
回答
使用
get()函数以编程方式分配
quanteda
文档
变量
、
我正在开发一个例程来自动定义几个语料库
quanteda
..。我有几个控制脚本
的
参数,其中一个是将要生成
的
语料库
的
名称。我可以
使用
下面的函数轻松地以编程方式
创建
语料库 但我完全没有添加任何
文档
变量
为它干杯。 一旦我定义了语料库,我通常会通过函数在整个代码
中
调用它 ..。我已经相当广泛地
使用
了这种方法,并取得了成功。由于某些原因,该函数 似乎不接受
使用
..。 请看下面的简单代码,我在其中定义了
浏览 22
提问于2021-02-18
得票数 1
回答已采纳
1
回答
在Quantida
中
以较小
的
身体
文本
作为
变量
构建语料库
、
、
我是一个初学者r用户,我需要一些帮助,我
的
项目。corp_site1<-corpus(datafra
浏览 4
提问于2020-11-09
得票数 0
回答已采纳
1
回答
TM,
Quanteda
,text2vec.根据regex模式在term列表
中
获取词条左边
的
字符串
、
、
、
我想分析一个大量
的
文本
文件夹,其中有几种语言
的
名称、地址和电话号码。R
中
的
数据挖掘包
中
是否存在这样
浏览 1
提问于2017-07-31
得票数 0
1
回答
如何
以
quanteda
格式读取
文本
文件,将每行存储为
文档
、
、
在这些文件
中
,每一行都是一个
文档
(博客文章
的
文本
、tweet
文本
等等)。我
使用
readtext,因为它是
quanteda</em
浏览 0
提问于2018-04-07
得票数 0
回答已采纳
2
回答
如何
对R
中
的
文档
进行标记化,并按
原始
文档
标题列出标记?
、
、
我有一个包含
文档
标题和
文本
的
数据框D,如下例所示:Doc 1 "This is an example of a document"我需要
使用
quanteda
包
中
的
tokenize函数来标记每个
文档
,然后返回
原始
文档
标题列出
的
标记,如下例所示: document
浏览 0
提问于2017-11-18
得票数 0
1
回答
R
中
的
文本
分析:除了标记之外,
如何
将
变量
添加到我
的
机器学习分类器?
、
、
、
如何
考虑其他
变量
我正在R中
使用
quanteda
进行分类任务,除了词袋之外,我想包括一些
变量
供我
的
模型考虑。例如,我计算了基于字典
的
情绪指数,我想包括这些
变量
,以便模型考虑它们。这些是我为每个
文档
创建
的
索引。disgDfm1@x) colnames(dfneg) <- c("label","neg" , "pos" , "a
浏览 27
提问于2019-04-01
得票数 1
回答已采纳
1
回答
在dfm()输出
中
包括ID号
、
我有一个带有ID编号列和
文本
列
的
数据集,我正在
使用
quanteda
包对
文本
数据进行LIWC分析。下面是我
的
数据设置
的
一个示例: id=c(19,101,43,12),
浏览 1
提问于2015-12-29
得票数 1
回答已采纳
1
回答
使用
全德达
的
清洁语料库
、
、
使用
tm(小写,删除点,删除数字,词干词)清洗语料库
的
方法是什么,如下面的示例所示?明确地说,我不想用dfm()
创建
文档
特性矩阵,我只想要一个干净
的
语料库,可以用于特定
的
下游任务。# This is what I want to do in
quanteda
data("crude") crude <- tm_map(crude, content_transformerremovePunctuat
浏览 2
提问于2020-08-04
得票数 0
回答已采纳
1
回答
R
中
的
Quanteda
问题
、
、
我在R中
使用
Quanteda
,并
创建
了语料库和dfm。但是,我注意到dfm和语料库包含
的
文档
比
原始
文件少。如果有人能让我知道为什么会发生这种情况以及
如何
修复,我将不胜感激。谢谢
浏览 0
提问于2018-05-30
得票数 0
1
回答
从
SEC Edgar文件
中
清除阅读
文本
和
quanteda
标记
、
、
我正试图
使用
readtext和
quanteda
将.txt文件读入R
中
,这是我
从
SEC Edgar公开上市公司档案数据库
中
解析出来
的
。.txt文件
的
一个例子是,更方便用户
的
版本是进行比较(在加利福尼亚
的
野火期间,PG&E)。,比如'3eyn‘和'kq',我认为它们是.txt文件底部
的
.txt部分
的
一部分。当我在
使用
readtext时对
文档
浏览 7
提问于2020-02-04
得票数 1
回答已采纳
1
回答
量子标记
的
时间序列分析
、
、
、
我遇到了一些问题,想出一种将时间信息与
quanteda
中
的
每个令牌配对
的
方法。我想对25个不同标记
的
列表进行时间序列分析。我知道我可以找到每个令牌
的
索引,但是我想知道是否有任何方法直接将日期信息附加到每个单个令牌。
浏览 0
提问于2019-11-18
得票数 0
回答已采纳
2
回答
R
文本
挖掘:
从
dataframe
创建
文档
术语矩阵,转换为dataframe,
从
原始
dataframe保留列。
、
、
、
下面是一些基于该包
的
代码,这些代码在我
的
示例数据上似乎运行得很好。但是,当
文本
列
的
值为空时,它就不太好用了。(有时会发生这种情况,保留空白而不是过滤是有意义
的
。)我已经将TVAR
的
第一个观察设置为空白来说明。代码删除了这个观察结果。
如何
才能使R保持观察,并将每个单词
的
频率设置为零?我尝试了一些ifelse语句,
使用
和不
使用
管道。但效果不太好。我想用它来
创建
一个
文档
术语矩阵。想必我会
浏览 3
提问于2017-09-18
得票数 0
回答已采纳
2
回答
R:将“术语
文档
矩阵”转换为“语料库”
、
、
、
我
使用
的
是R编程语言。我正在尝试遵循本教程(https://cran.r-project.org/web/packages/tidytext/vignettes/tidying_casting.html)
中
的
说明,学习
如何
将但是,本教程中提供
的
解释对我来说并不清楚,我也不确定
如何
做到这一点。
使用
公开可用
的
莎士比亚戏剧,我
创建
了术语
文档</e
浏览 25
提问于2021-05-05
得票数 0
1
回答
如何
在
quanteda
令牌对象中找到令牌
的
位置?
、
、
我已经从一个纯
文本
文件
中
创建
了一个
quanteda
令牌对象,并选择了我要
使用
的
特定单词。tokens_select(truePdfAnnualReports.toks, unlist(strategicKeywords.list), padding = TRUE) 要维护
原始
文本
文件
中
的
特定令牌序列现在,我希望将令牌位置号(绝对和相对)分配给该函数选择
的
令牌。
如何
为函数选择
浏览 1
提问于2021-06-25
得票数 0
回答已采纳
1
回答
将docvars
从
单独
的
data.frame r添加到dfm
、
、
、
在花费大量时间开发适当
的
语料库(例如,停用词、tf-idf)之后,我在tm包
中
创建
了一个dtm,并运行了我
的
主题模型。然后,我继续将这些主题与一些感兴趣
的
文档
级协
变量
进行比较,结果发现stm允许您
使用
感兴趣
的
文档
级协
变量
来估计模型。我已经成功地将dtm转换为
quanteda
中
的
dfm,并希望在转换为stm之前将我
的
协
变量
浏览 7
提问于2018-07-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
还在用tm?你OUT啦!
数据准备指南:10种基础特征工程方法的实战教程
第十六课 Text4变量
自动文本摘要
在Python中使用PDF:阅读和拆分
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券