用于get_document_topics的LDA Mallet替代方案-测量每个文档的主题

文章/答案/技术大牛

发布

1回答

python、lda、topic-modeling

目前正在使用Python和Gensim Mallet包装器进行LDA分析。在训练模型并获得主题之后，我想看看主题是如何分布在各种文档中的。在普通的Gensim LDA分析中，可以使用get_document_topics函数，我可以使用它来迭代我的文件中的每个文档。但是，Mallet包装器没有此功能。我可以检索主题在一个特定<e

浏览 40提问于2020-02-25得票数 2

3回答

从gensim LDA模型中提取主题分布

gensim、lda、topic-modeling

我使用python中的gensim包为一些文本文件创建了一个LDA模型。我想获得学习模型的主题分布。在gensim ldamodel类中是否存在从模型中获取主题分布的方法或解决方案？例如，我使用一致性模型来寻找一个模型，该模型的值与1到5的主题数有关。得到最佳模型后，我使用get_document_topics方法(感谢)来获取用于创建该模型的文档</em

浏览 1提问于2018-08-29得票数 2

回答已采纳

2回答

标记LDA* +引导式LDA主题建模*

python、machine-learning、nlp、lda、topic-modeling

我对机器学习、NLP和LDA都比较陌生，所以我甚至不确定我是否完全正确地处理了我的问题；但我正在尝试使用已知主题和多个主题选择进行无监督的主题建模。我可以用每个单独的主题标记我的每一个文档，并且我的无监督集实际上变成了有监督的(LLDA是一种有监督的技术)。那么，有没有什么算法(我假设修改了LLDA，但我在这方面又不是很了解)，可以让人使用某种形

浏览 47提问于2019-02-22得票数 1

1回答

2没有这样的文件或目录

nlp、gensim、lda、mallet

我保存了一个LDAWallet模型： mallet_path = 'mallet-2.0.8/bin/mallet' num_topics=14)ldamallet.save('lda_v0正因为如此，当我加载模型并想预

浏览 4提问于2020-03-09得票数 0

2回答

gensim中的get_document_topics和get_term_topics

python、gensim、topic-modeling

gensim中的有两种方法：get_document_topics和get_term_topics。，输出是有意义的。这两个概率之和为1.0，而user具有较高概率的主题(来自model.show_topics())也有较高的概率分配。虽然从数字上看，user具有更高的概率(来自model.show_topics())的主题也分配了一个更高的数字，这个数字意味着什么？既然get_term_topics可以提供(似乎)

浏览 5提问于2017-04-11得票数 17

1回答

lda中所有主题中出现的单词

python、gensim、lda、topic-modeling

我使用gensim lda进行主题建模，并获得如下结果：主题2: word4 word1 word2 word5但是，在相同的lda上使用mallet不会在主题之间产生重复的单词。我有大约20个文档，每个文档>1000个单词，我在这些

浏览 5提问于2018-02-08得票数 0

1回答

基于主题建模的文档关联评分

machine-learning、nlp、topic-modeling、mallet、relevance

我目前有一个使用MALLET ()的经过训练的主题模型，该模型基于大约80000篇新闻文章(这些文章都属于一个类别)。任何想法或帮助都是非常感谢的。谢谢!

浏览 2提问于2018-07-23得票数 2

回答已采纳

4回答

关于lda推断

nlp、topic-modeling、mallet

现在，我正在使用MALLET包中的LDA主题建模工具对我的文档进行一些主题检测。最初一切都很好，我从中得到了20个主题。然而，当我尝试使用该模型推断新文档时，结果有点令人费解。例如，我故意在手动创建的文档上运行我的模型，该文档只包含"FLU“主题之一的关键字，但我得到的每个主

浏览 2提问于2010-12-07得票数 4

1回答

typeTopicCounts在mallet主题建模实现中的作用

java、mallet

我正在尝试理解LDA主题模型是如何在mallet API中实现的。在ParallelTopicModel类中，我可以看到一个名为typeTopicCounts的2Dint数组，它是在buildInitialTypeTopicCounts()方法中通过一些按位操作初始化的，稍后用于每个文档。我的问题是，这个数组值意味着什么？我能从源代码中得到的唯一信息是，它是通过特征索引、主题索引来

浏览 0提问于2017-06-21得票数 0

2回答

Gensim Mallet包装器:如何获得所有文档的主题权重？

python、gensim、lda、topic-modeling、mallet

我正在使用Gensim的Mallet包装器进行主题建模- LdaMallet(path_to_mallet_binary, corpus=corpus, num_topics=100, id2word=words, workers=6, random_seed=2) 虽然上面的工作速度惊人地快，但获取每个文档(n=40,000)的主题分布的步骤(见下文)花费了很长的时间。distributuon for all do

浏览 37提问于2020-06-13得票数 0

1回答

应用gensim LDA主题建模后，如何为每个主题获取概率最高的文档，并将其保存在csv文件中？

python、csv、gensim、lda、topic-modeling

我使用gensim LDA Topic Modeling从语料库中获取相关主题。现在，我希望获得代表每个主题的前20个文档:在一个主题中概率最高的文档。我想将它们保存在CSV文件中，格式如下:主题ID、主题单词、主题中每个单词的概率为4列，每个主题的前20个文档。我已经尝试过

浏览 49提问于2019-06-02得票数 3

1回答

利用潜在Dirichlet分配(LDA)或命名实体确定文档的新颖性/相似性

machine-learning、nlp、topic-model、lda、named-entity-recognition

给定一个包含大量(短)文档(大约100万)的索引或数据库，我试图对每个新传入的文档进行某种新奇的检测。为了克服这些缺点，我的想法是要么使用LDA主题分布，要么使用命名实体来增强Lucene索引和查询(即

浏览 0提问于2017-03-12得票数 1

2回答

基于mallet的主题建模

modeling、mallet

我目前正在做一些主题建模的事情(初学者)，我想使用mallet作为一些工具来让我理解这个领域，但是，我的问题是，我想训练一个基于1000个文档的模型，来构造一个模型，并在新的单个文档上使用该模型来生成其潜在的主题但是，就我读到的mallet教程而言，它总是说这个工具或API在文本语料库上很有用，这意味着它用于在几个文档中查找主题

浏览 0提问于2013-07-11得票数 0

回答已采纳

3回答

MALLET与NLTK中的主题建模

nltk、mallet

我刚刚读了一篇关于如何将MALLET用于主题建模的有趣文章，但我在网上找不到任何将MALLET与NLTK进行比较的文章，因为我已经有了一些经验。它们之间的主要区别是什么？MALLET是一个更“完整”的资源吗(例如，在引擎盖下有更多的工具和算法)？或者，回答前两个问题的好文章在哪里？

浏览 0提问于2011-09-20得票数 28

回答已采纳

1回答

使用主题建模Java工具包

topic-modeling、mallet、lingpipe

我正在研究文本分类，我想使用主题模型(LDA)。我的语料库中至少有24,000份波斯新闻文件。语料库中的每个文档都是从新闻中提取的(关键字、权重)对的格式。我看到了两个Java工具包: mallet和lingpipe。我读过有关导入数据的mallet教程，它以纯文本获取数据，而不是我所拥有的格式。我能改变它吗？此外，还阅读了一些关于林格管的内容，教程中的例子是使用

浏览 6提问于2015-02-18得票数 0

回答已采纳

2回答

gensim的get_document_topics方法返回的概率加起来不等于一个

text-mining、gensim、lda、topic-modeling

有时，它会返回所有主题的概率，而且一切都很好，但有时它只返回少数几个主题的概率，它们加起来不等于一个，这似乎取决于文档。一般来说，当它返回很少的主题时，其概率加起来大约是80%，那么返回的仅仅是最相关的主题吗？有没有办法强迫它返回所有的概率？也许我遗漏了一些东西，但是我找不到方法参数的任何文档。

浏览 4提问于2017-06-15得票数 5

回答已采纳

2回答

基本使用。第一步

topic-modeling、mallet

我试图在主题建模等方面使用Mallet，没有任何解释。我的目的是获得我现在拥有的M文档的N个主题，将每个文档分类为一个或多个主题(doc 1=主题1；doc 2=主题2，可能还有主题3)，并根据这个结果对未来的新文档进行分类。我第一次尝试使用bigartm，但是在这个程序中没有发现任何用于分类的东西，只有<em

浏览 0提问于2016-11-14得票数 2

回答已采纳

1回答

理解gensim LDA主题建模API的输出

machine-learning、artificial-intelligence、gensim、lda、topic-modeling

我试图理解主题建模的，就像在这个中解释的那样。在第16点中，它训练LDA主题模型并打印主题：列表(浮动，str) -主题作为(权重，字)

浏览 5提问于2022-04-12得票数 0

3回答

关于潜在Dirichlet分配(MALLET)的问题

nlp、mallet

老实说，我不熟悉LDA，但我需要在我的一个项目中使用MALLET的主题建模。我的问题是:给定特定时间戳内的一组文档作为主题模型的训练数据，使用模型(使用推理器)来跟踪主题趋势(对于文档+或-训练数据的时间戳)是合适的吗？我的意思是，如果在模型构建阶段，我们只提供了我需要分析的数据集的一个子集，

浏览 1提问于2010-11-10得票数 2

回答已采纳

2回答

主题建模与主题相似性的发现

topic-modeling、gensim、mallet

问题陈述:我有几个文档(20k文档)。我需要应用主题建模来找到相似的文档，然后分析这些相似的文档，找出它们之间的不同之处。问:有谁能给我建议一个主题模型包，我可以通过它来实现这一点吗？我正在探索Mallet和Gensim Python。不知道哪一个最适合我的要求。任何帮助都将不胜感激。

浏览 4提问于2014-05-05得票数 0

回答已采纳

点击加载更多