腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
删除
最
常用
的
单词
mallet
、
、
我从字符串列表中创建了一个由令牌特征序列组成
的
实例列表。通过命令行,我可以根据计数、tf-idf等来修剪这些数据()。但是如果我想用Java来做呢?我必须如何扩展我
的
代码?我
的
目标是
删除
LDA主题建模中最常见
的
单词
。SerialPipes(pipes)); return instanceList;提前感谢您
的
帮助
浏览 7
提问于2018-03-04
得票数 1
回答已采纳
1
回答
具有大型语料库
的
Python Gensim LDAMallet CalledProcessError (在小型语料库中运行良好)
、
、
、
当我在我
的
大约1600万个文档
的
完整语料库上运行Gensim LDAMallet模型时,我得到了一个CalledProcessError“非零退出状态1”错误。足够有趣
的
是,如果我在大约160,000个文档
的
测试语料库上运行完全相同
的
代码,代码运行得非常好。因为它在我
的
小语料库上工作得很好,我倾向于认为代码是好
的
,但我不确定还有什么会/可能导致这个错误…… 我试着按照建议
的
here编辑
mallet
.bat文件,但是没有用。&
浏览 37
提问于2019-04-03
得票数 1
1
回答
在
Mallet
主题建模中保留数字
、
、
我正在使用
Mallet
进行主题建模。我输入
的
文本中有大量
的
单词
,包括字母和数字;例如,A54、D892。我刚刚注意到,
Mallet
会自动
删除
数字,只保留
单词
中
的
字母。
浏览 1
提问于2014-11-07
得票数 0
4
回答
关于lda推断
、
、
现在,我正在使用
MALLET
包中
的
LDA主题建模工具对我
的
文档进行一些主题检测。最初一切都很好,我从中得到了20个主题。然而,当我尝试使用该模型推断新文档时,结果有点令人费解。例如,我故意在手动创建
的
文档上运行我
的
模型,该文档只包含"FLU“主题之一
的
关键字,但我得到
的
每个主题
的
主题分布小于0.1。然后,我在一个已经采样
的
文档上尝试了相同
的
方法,其中一个主题
的
得分很高,为0.7。同样<em
浏览 2
提问于2010-12-07
得票数 4
2
回答
如何在文本挖掘任务中处理文档中
的
拼写错误
的
单词
?
、
、
我有一组非正式
的
文档(几千个),我想对它们应用主题建模(
MALLET
)。问题是,文档中有相当数量
的
拼写错误
的
单词
。大多数都是故意
的
,比如缩写和当地
的
行话,比如‘’juz‘->’'just','alr‘->’->‘。由于不同作者独特
的
写作风格,存在着一些这样
的
变体。在将它们提供给
MALLET
之后,我有点困扰,因为生成
的
其中一个主题实际上是一组拼写错误<e
浏览 6
提问于2010-11-25
得票数 1
回答已采纳
1
回答
lda中所有主题中出现
的
单词
、
、
、
并获得如下结果:主题2: word4 word1 word2 word5但是,在相同
的
lda上使用
mallet
不会在主题之间产生重复
的
单词
。我有大约20个文档,每个文档>1000个
单词
,我在这些文档上训练lda。如何摆脱出现在多个主题中
的
单词
?
浏览 5
提问于2018-02-08
得票数 0
1
回答
Mallet
-主题建模-词组错误
、
、
虽然我在使用
MALLET
进行主题建模时添加了额外
的
停止词列表和默认
的
停止词列表,但是在主题模型中出现了一些停止词。例如"ın“、"ıf”、"ıt“。如何确保主题模型中不会出现这种停顿语?0 5ııt时光厅门房人们眼睛东西夜女人白天让女孩面对妈妈
的
声音车回家2.5次工作场所水长,使切割ın方大顶房侧建机,建筑粘土片设计7 5ın数制数据表面温度高低体积信息材料压力进给小结果显示方法 8.5世界生命教会战争时期伟大
浏览 3
提问于2014-12-24
得票数 3
回答已采纳
2
回答
如何获取
Mallet
中主题词
的
概率
、
、
、
我正在使用
mallet
中
的
LDA来探索我
的
数据。我对跑步没有任何问题,只是我需要有排名靠前
的
单词
的
概率(假设20个
单词
)bin\
mallet
train-topics --input tutorial.
mallet
--num-topicsoutput-topic-keys tutorial_keys_doc_40t.txt --output-doc-topics tutorial_composition_do
浏览 9
提问于2017-02-07
得票数 1
回答已采纳
1
回答
Mallet
主题建模:
删除
最常见
的
单词
、
、
在艺术史领域,我刚接触过
Mallet
和主题造型。我正在使用
Mallet
2.0.8和命令行(我还不知道Java)。在训练模型之前,我想
删除
最常见和最不常见
的
单词
(在整个语料库中
删除
10次,如D.Mimno所建议
的
),因为结果并不干净(即使是在斯多普林医生那里),这并不令人惊讶。
浏览 4
提问于2018-01-05
得票数 2
1
回答
每只熊猫数据行
的
单词
频率
、
、
、
我试图弄清楚如何在每个数据行中获得
最
频繁
的
单词
--让我们说出前10位
最
频繁
的
单词
。我
的
代码为整个DF提供了最
常用
的
单词
,但现在我需要更细粒度。temp/comments.csv',encoding='latin-1',names=['client','comments']) 现在,我可以在整个df1中得到
浏览 0
提问于2018-04-21
得票数 4
回答已采纳
1
回答
在
MALLET
中截断主题模型
的
标记
、
、
我想截断语料库中
的
所有标记,使其最大长度为5个字符。有没有办法在
MALLET
中设置--token-regex导入选项来实现这一点?我目前用来导入文档
的
代码是:
mallet
-2.0.7/bin/
mallet
import-dir --input
mallet
-2.0.7/data/journals/ --output
mallet
-2.0.7/tmp/topic-input-journals.
浏览 1
提问于2014-09-11
得票数 1
1
回答
基于
MALLET
的
文本分类
、
、
、
、
我刚开始使用
Mallet
。我通常使用WEKA进行分类,现在我尝试使用
Mallet
进行文本分类。在Weka中,有一些属性(例如
单词
长度或前n个
单词
的
出现次数)是我们自己选择并生成.arff文件
的
。我已经读过关于中
的
Mallet
的
输入格式,但我仍然感到困惑。如何在输入格式中分配属性?我们如何判断这个文档属于某个类呢?例如,一个文档属于"sports“类? 任何输入格式文件
的
例子将是非常感谢。
浏览 2
提问于2015-07-12
得票数 1
2
回答
主题建模与主题相似性
的
发现
、
、
我需要应用主题建模来找到相似的文档,然后分析这些相似的文档,找出它们之间
的
不同之处。问:有谁能给我建议一个主题模型包,我可以通过它来实现这一点吗?我正在探索
Mallet
和Gensim Python。不知道哪一个最适合我
的
要求。 任何帮助都将不胜感激。
浏览 4
提问于2014-05-05
得票数 0
回答已采纳
1
回答
从tweet中
删除
频繁
单词
时,在索引id处发生了“获取系列‘object没有属性'split'”。
、
我刚进入情感analysis.In文本预处理阶段,我遇到了一个从twits中
删除
频繁
单词
的
问题。我想把
最
频繁
的
词从twits中去掉,所以我已经把最
常用
的
词都用了。.join(traindata['tweet']).split()).value_counts()[:10]freq=list(freq.index)通过
删除
常用
的</
浏览 0
提问于2018-10-26
得票数 1
回答已采纳
1
回答
如何处理
Mallet
中cmd行中
的
空格?
、
、
、
、
如果我在中运行cmd中没有空格
的
路径,这是可以
的
。
Mallet
导入-dir--输入E:\
Mallet
\
mallet
-2.0.8RC3\sample-data\web\en -输出E:\
Mallet
\topicout\weben.
mallet
-保持顺序-
删除
-停止词 上面没问题。我将\n下面的文件复制到路径包含空格
的
另一个文件夹中。我在下面使用引号,但不起作用。Cmd提示错误数据\eco。您能帮我处理这个命令路径中
的
浏览 2
提问于2019-03-09
得票数 1
回答已采纳
2
回答
标签预测
的
特征空间约简
、
、
、
、
完成
的
工作 Pre-processing:标记
删除
,停止字
删除
,特殊字符
删除
和一些比特和碎片。存储到MySQL中。这几乎将测试数据
的
大小减半。这就产生了大约100万个独特
的
单位和2000万个独特
的
比格,每一个都有一个相应
的
标签频率列表。例如。注:这里有两个问题:( a)不是所有的单数和符号都很重要;( b)并非所有与ngram相关
的
标记都很重要,尽管这并不意味着频率1
的
标记都是等价
的
,或者可以随
浏览 3
提问于2015-01-31
得票数 6
1
回答
Python ()方法生成java.io.FileNotFoundException
、
、
、
、
我对Python中
的
子进程包很陌生。我试图使用该包中
的
call()方法向终端发送以下命令: import os class
Mallet
(object):C:\\<e
浏览 2
提问于2013-06-25
得票数 0
回答已采纳
1
回答
在
Mallet
中使用预定义主题
、
、
我希望使用
Mallet
根据我定义
的
主题对不同
的
文档进行分类。我知道
Mallet
将首先确定主题,然后对文档进行分类,但我想跳过第一步,因为我已经有了一个主题列表,其中包含与它们相关联
的
单词
。有没有办法使用我创建
的
预定义主题列表来使用
Mallet
对文档进行分类? 任何指导都是值得感谢
的
。谢谢!
浏览 0
提问于2014-10-18
得票数 1
1
回答
主题中
单词
的
MALLET
排名
、
、
我对
mallet
比较陌生,需要知道:-
mallet
产生
的
每个主题中
的
单词
是否以某种方式排序?-如果是,排序是什么(即)主题列表中
的
第一个在语料库中
的
分布是最高
的
吗? 谢谢!
浏览 1
提问于2014-06-23
得票数 1
1
回答
Mallet
: N-gram (1,2)
的
标记化
、
、
我想知道是否有可能在
Mallet
中通过n-gram大小在1和2之间对
单词
进行标记?这是我到目前为止使用
的
代码:bin\
mallet
train-topics --input sample.txt --num-topics 20 --optimize-interval
浏览 13
提问于2021-09-22
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python中必背的42个常用单词,看看你记住了几个?
Sublime的常用插件及安装、使用和删除
当下最火和常用的名词和概念
微信怎么删除聊天记录?进来Get常用的操作方法!
外贸常用最便宜的国际运输:值得考虑的 10 家快递公司
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券