腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(3720)
视频
沙龙
1
回答
用于
get_document_topics
的
LDA
Mallet
替代
方案
-
测量
每个
文档
的
主题
、
、
目前正在使用Python和Gensim
Mallet
包装器进行
LDA
分析。在训练模型并获得
主题
之后,我想看看
主题
是如何分布在各种
文档
中
的
。在普通
的
Gensim
LDA
分析中,可以使用
get_document_topics
函数,我可以使用它来迭代我
的
文件中
的
每个
文档
。但是,
Mallet
包装器没有此功能。我可以检索
主题
在一个特定<e
浏览 40
提问于2020-02-25
得票数 2
3
回答
从gensim
LDA
模型中提取
主题
分布
、
、
我使用python中
的
gensim包为一些文本文件创建了一个
LDA
模型。我想获得学习模型
的
主题
分布。在gensim ldamodel类中是否存在从模型中获取
主题
分布
的
方法或解决
方案
?例如,我使用一致性模型来寻找一个模型,该模型
的
值与1到5
的
主题
数有关。得到最佳模型后,我使用
get_document_topics
方法(感谢)来获取
用于
创建该模型
的
文档</em
浏览 1
提问于2018-08-29
得票数 2
回答已采纳
2
回答
标记
LDA
+引导式
LDA
主题
建模
、
、
、
、
我对机器学习、NLP和
LDA
都比较陌生,所以我甚至不确定我是否完全正确地处理了我
的
问题;但我正在尝试使用已知
主题
和多个
主题
选择进行无监督
的
主题
建模。我可以用
每个
单独
的
主题
标记我
的
每一个
文档
,并且我
的
无监督集实际上变成了有监督
的
(LLDA是一种有监督
的
技术)。那么,有没有什么算法(我假设修改了LLDA,但我在这方面又不是很了解),可以让人使用某种形
浏览 47
提问于2019-02-22
得票数 1
1
回答
2没有这样
的
文件或目录
、
、
、
我保存了一个LDAWallet模型:
mallet
_path = '
mallet
-2.0.8/bin/
mallet
' num_topics=14)ldamallet.save('
lda
_v0正因为如此,当我加载模型并想预
浏览 4
提问于2020-03-09
得票数 0
2
回答
gensim中
的
get_document_topics
和get_term_topics
、
、
gensim中
的
有两种方法:
get_document_topics
和get_term_topics。,输出是有意义
的
。这两个概率之和为1.0,而user具有较高概率
的
主题
(来自model.show_topics())也有较高
的
概率分配。虽然从数字上看,user具有更高
的
概率(来自model.show_topics())
的
主题
也分配了一个更高
的
数字,这个数字意味着什么?既然get_term_topics可以提供(似乎)
浏览 5
提问于2017-04-11
得票数 17
1
回答
lda
中所有
主题
中出现
的
单词
、
、
、
我使用gensim
lda
进行
主题
建模,并获得如下结果:
主题
2: word4 word1 word2 word5但是,在相同
的
lda
上使用
mallet
不会在
主题
之间产生重复
的
单词。我有大约20个
文档
,
每个
文档
>1000个单词,我在这些
浏览 5
提问于2018-02-08
得票数 0
1
回答
基于
主题
建模
的
文档
关联评分
、
、
、
、
我目前有一个使用
MALLET
()
的
经过训练
的
主题
模型,该模型基于大约80000篇新闻文章(这些文章都属于一个类别)。任何想法或帮助都是非常感谢
的
。谢谢!
浏览 2
提问于2018-07-23
得票数 2
回答已采纳
4
回答
关于
lda
推断
、
、
现在,我正在使用
MALLET
包中
的
LDA
主题
建模工具对我
的
文档
进行一些
主题
检测。最初一切都很好,我从中得到了20个
主题
。然而,当我尝试使用该模型推断新
文档
时,结果有点令人费解。例如,我故意在手动创建
的
文档
上运行我
的
模型,该
文档
只包含"FLU“
主题
之一
的
关键字,但我得到
的
每个
主
浏览 2
提问于2010-12-07
得票数 4
1
回答
typeTopicCounts在
mallet
主题
建模实现中
的
作用
、
我正在尝试理解
LDA
主题
模型是如何在
mallet
API中实现
的
。在ParallelTopicModel类中,我可以看到一个名为typeTopicCounts
的
2Dint数组,它是在buildInitialTypeTopicCounts()方法中通过一些按位操作初始化
的
,稍后
用于
每个
文档
。我
的
问题是,这个数组值意味着什么?我能从源代码中得到
的
唯一信息是,它是通过特征索引、
主题
索引来
浏览 0
提问于2017-06-21
得票数 0
2
回答
Gensim
Mallet
包装器:如何获得所有
文档
的
主题
权重?
、
、
、
、
我正在使用Gensim
的
Mallet
包装器进行
主题
建模- LdaMallet(path_to_
mallet
_binary, corpus=corpus, num_topics=100, id2word=words, workers=6, random_seed=2) 虽然上面的工作速度惊人地快,但获取
每个
文档
(n=40,000)
的
主题
分布
的
步骤(见下文)花费了很长
的
时间。distributuon for all do
浏览 37
提问于2020-06-13
得票数 0
1
回答
应用gensim
LDA
主题
建模后,如何为
每个
主题
获取概率最高
的
文档
,并将其保存在csv文件中?
、
、
、
、
我使用gensim
LDA
Topic Modeling从语料库中获取相关
主题
。现在,我希望获得代表
每个
主题
的
前20个
文档
:在一个
主题
中概率最高
的
文档
。我想将它们保存在CSV文件中,格式如下:
主题
ID、
主题
单词、
主题
中
每个
单词
的
概率为4列,
每个
主题
的
前20个
文档
。我已经尝试过
浏览 49
提问于2019-06-02
得票数 3
1
回答
利用潜在Dirichlet分配(
LDA
)或命名实体确定
文档
的
新颖性/相似性
、
、
、
、
给定一个包含大量(短)
文档
(大约100万)
的
索引或数据库,我试图对
每个
新传入
的
文档
进行某种新奇
的
检测。为了克服这些缺点,我
的
想法是要么使用
LDA
主题
分布,要么使用命名实体来增强Lucene索引和查询(即
浏览 0
提问于2017-03-12
得票数 1
2
回答
基于
mallet
的
主题
建模
、
我目前正在做一些
主题
建模
的
事情(初学者),我想使用
mallet
作为一些工具来让我理解这个领域,但是,我
的
问题是,我想训练一个基于1000个
文档
的
模型,来构造一个模型,并在新
的
单个
文档
上使用该模型来生成其潜在
的
主题
但是,就我读到
的
mallet
教程而言,它总是说这个工具或API在文本语料库上很有用,这意味着它
用于
在几个
文档
中查找
主题
浏览 0
提问于2013-07-11
得票数 0
回答已采纳
3
回答
MALLET
与NLTK中
的
主题
建模
、
我刚刚读了一篇关于如何将
MALLET
用于
主题
建模
的
有趣文章,但我在网上找不到任何将
MALLET
与NLTK进行比较
的
文章,因为我已经有了一些经验。 它们之间
的
主要区别是什么?
MALLET
是一个更“完整”
的
资源吗(例如,在引擎盖下有更多
的
工具和算法)?或者,回答前两个问题
的
好文章在哪里?
浏览 0
提问于2011-09-20
得票数 28
回答已采纳
1
回答
使用
主题
建模Java工具包
、
、
我正在研究文本分类,我想使用
主题
模型(
LDA
)。我
的
语料库中至少有24,000份波斯新闻文件。语料库中
的
每个
文档
都是从新闻中提取
的
(关键字、权重)对
的
格式。我看到了两个Java工具包:
mallet
和lingpipe。我读过有关导入数据
的
mallet
教程,它以纯文本获取数据,而不是我所拥有的格式。我能改变它吗?此外,还阅读了一些关于林格管
的
内容,教程中
的
例子是使用
浏览 6
提问于2015-02-18
得票数 0
回答已采纳
2
回答
gensim
的
get_document_topics
方法返回
的
概率加起来不等于一个
、
、
、
有时,它会返回所有
主题
的
概率,而且一切都很好,但有时它只返回少数几个
主题
的
概率,它们加起来不等于一个,这似乎取决于
文档
。一般来说,当它返回很少
的
主题
时,其概率加起来大约是80%,那么返回
的
仅仅是最相关
的
主题
吗?有没有办法强迫它返回所有的概率? 也许我遗漏了一些东西,但是我找不到方法参数
的
任何
文档
。
浏览 4
提问于2017-06-15
得票数 5
回答已采纳
2
回答
基本使用。第一步
、
我试图在
主题
建模等方面使用
Mallet
,没有任何解释。我
的
目的是获得我现在拥有的M
文档
的
N个
主题
,将
每个
文档
分类为一个或多个
主题
(doc 1=
主题
1;doc 2=
主题
2,可能还有
主题
3),并根据这个结果对未来
的
新
文档
进行分类。我第一次尝试使用bigartm,但是在这个程序中没有发现任何
用于
分类
的
东西,只有<em
浏览 0
提问于2016-11-14
得票数 2
回答已采纳
1
回答
理解gensim
LDA
主题
建模API
的
输出
、
、
、
、
我试图理解
主题
建模
的
,就像在这个中解释
的
那样。在第16点中,它训练
LDA
主题
模型并打印
主题
: 列表(浮动,str) -
主题
作为(权重,字)
浏览 5
提问于2022-04-12
得票数 0
3
回答
关于潜在Dirichlet分配(
MALLET
)
的
问题
、
老实说,我不熟悉
LDA
,但我需要在我
的
一个项目中使用
MALLET
的
主题
建模。我
的
问题是:给定特定时间戳内
的
一组
文档
作为
主题
模型
的
训练数据,使用模型(使用推理器)来跟踪
主题
趋势(对于
文档
+或-训练数据
的
时间戳)是合适
的
吗?我
的
意思是,如果在模型构建阶段,我们只提供了我需要分析
的
数据集
的
一个子集,
浏览 1
提问于2010-11-10
得票数 2
回答已采纳
2
回答
主题
建模与
主题
相似性
的
发现
、
、
问题陈述:我有几个
文档
(20k
文档
)。我需要应用
主题
建模来找到相似的
文档
,然后分析这些相似的
文档
,找出它们之间
的
不同之处。问:有谁能给我建议一个
主题
模型包,我可以通过它来实现这一点吗?我正在探索
Mallet
和Gensim Python。不知道哪一个最适合我
的
要求。 任何帮助都将不胜感激。
浏览 4
提问于2014-05-05
得票数 0
回答已采纳
点击加载更多
相关
资讯
python主题LDA建模和t-SNE可视化
Python之LDA主题模型算法应用
机器学习当中的数学闪光:如何直观地理解 LDA
R语言社区主题检测算法应用案例
Spark平台下基于LDA的k-means算法实现
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券