如何将主题列表(从gensim lda get_document_topics())更改为DataFrame格式

文章/答案/技术大牛

发布

1回答

、、、

我使用以下命令执行了一些主题建模 gensim.models.ldamodel.LdaModel() 我想标记我的数据，以可视化我的发现。这就是我到目前为止所知道的：我当前的dataframe有以下列： ['text']['date']['gender']['tokens']['topics']['main_topic'] Text只是纯文本数据，date格式为(yyyy-mm-dd)，性别为二进制，女

浏览 120提问于2021-02-28得票数 1

回答已采纳

2回答

如何在新闻文章中使用gensim for lda？

、、

我正在尝试从一个庞大的新闻文章语料库中检索主题列表，我计划使用gensim使用LDA来提取每个文档的主题分布。我想知道lda的gensim实现所需的处理文章的格式，以及如何将原始文章转换为该格式。我在维基百科上看到了关于使用lda的链接，但我发现语料库处于已处理状态，其格式在任何地方都没有提到

浏览 5提问于2012-04-02得票数 3

回答已采纳

1回答

应用gensim LDA主题建模后，如何为每个主题获取概率最高的文档，并将其保存在csv文件中？

、、、、

我使用gensim LDA Topic Modeling从语料库中获取相关主题。现在，我希望获得代表每个主题的前20个文档:在一个主题中概率最高的文档。我想将它们保存在CSV文件中，格式如下:主题ID、主题单词、主题中每个单词的概率为4列，每个主题的前20个文档。我已经尝试过get_document_topics，我认为它是完成此任务的最佳方法： all_topics =l

浏览 49提问于2019-06-02得票数 3

1回答

csv矩阵在一个模型中的主题相似性

、、

我想要生成一个主题到主题矩阵，以找到类似的主题，以生成内部集群的函数gensim.models.ldamodel.diff从gensim LDA。如何将生成的数据保存到包含主题和单元格中的距离(在本例中为hellinger距离)的csv中？此代码不适用于我：import pandas dateiname_model1 = "lda.m

浏览 2提问于2018-05-31得票数 1

回答已采纳

4回答

python -将列表转换为dataframe

、、、、

问题：--我想将列表列表转换为数据格式。2,0.3),(3,0.4),(4,0.2)]]请注意，虽然一些文档(如第三列表)最多可以有五个元组(主题概率)，但是gensim LDA

浏览 2提问于2015-11-04得票数 0

3回答

从gensim* LDA模型中提取主题分布*

、、

我使用python中的gensim包为一些文本文件创建了一个LDA模型。我想获得学习模型的主题分布。在gensim ldamodel类中是否存在从模型中获取主题分布的方法或解决方案？例如，我使用一致性模型来寻找一个模型，该模型的值与1到5的主题数有关。得到最佳模型后，我使用get_document_topics方法(感谢)来获取用于创建该模型的文档中的主题分布。= None <e

浏览 1提问于2018-08-29得票数 2

回答已采纳

1回答

使用gensim从词袋向量创建LDA模型

、、、

我想从Jstor提供的数据(例如)中创建一个主题模型。但是，由于版权的原因，它们不允许全文访问。取而代之的是，我可以在文档(以纯.txt格式提供)中请求一个单字符列表，后面跟着它们的频率。但是，我只找到了从全文构建Gensim LDA模型的示例。是否有可能将这些向量传递给它呢？

浏览 1提问于2019-11-16得票数 1

10回答

如何从gensim打印LDA主题模型？Python

、、、、

使用gensim，我能够从LSA中的一组文档中提取主题，但是如何访问从LDA模型生成的主题呢？):代码：from itertools import izip

浏览 7提问于2013-02-22得票数 27

1回答

Gensim:为每个主题提取100个最具代表性的文档

、、、

我有几个gensim模型，适用于大约500万个文档。我想从每个主题的每个模型中提取前100个最具代表性的文档，以帮助我选择最佳模型。假设我有一个模型lda和语料库corpus，我可以获得以下形式的主题概率：其中topic_probs是元组列表：(topic_num, topic_prob如何依次按主题和概率对此元组列表进行排序，然后从语料库中检索前100个文档？我猜答案看起来有点像

浏览 1提问于2020-06-03得票数 0

7回答

层次Dirichlet过程Gensim主题数与语料库大小无关

、、、

我在一组文档上使用Gensim HDP模块。hdp.print_topics(topics=-1, topn=20)150111317 为什么主题的数量与语料库长度无关

浏览 1提问于2015-07-21得票数 14

回答已采纳

2回答

从gensim的LDA获得统一的主题分布吗？

、、、

我试图学习每个文档在一个语料库中的主题分布。这是非常不可能的，因为文档有不同的主题。相关的代码片段是： vecs = [vec for ve

浏览 0提问于2016-09-08得票数 2

回答已采纳

4回答

从一组文档中提取最重要的关键字

、、、、

此外，仅仅根据Tf-Idf分数从每个文档中选择前k个单词也不会有什么帮助，对吧？：我可以做一些很酷的事情，比如查找相似的单词，但不确定如何使用它来查找重要的关键字。

浏览 3提问于2017-08-24得票数 3

1回答

Top2Vec模型的一致性度量

、、

我基本上是在更改HDBScan簇大小，以获得表示不同主题#的不同的Doc2Vec嵌入集群。我还尝试使用托克利特。虽然我可以轻松地获得文档术语矩阵( Document，DTM)，但我无法使用Top2Vec获得主题词分布。问题：还有其他指标可以用来比较Top2Vec模型吗？

浏览 0提问于2021-08-06得票数 0

6回答

用gensim学习矢量器和词汇表

、、、

我正在尝试回收scikit-学习带有gensim主题模型的向量器对象。原因很简单:首先，我已经有了大量的矢量化数据；第二，我更喜欢scikit的界面和灵活性--学习向量器；第三，尽管使用gensim的主题建模非常快，但在我的经验中，计算它的字典(Dictionary())和也曾提出过类似的问题，其桥接方法是gensim的Sparse2Corpus()函数，它将一个稀疏矩阵转化为一个gensim语料库对象。为了打印每个主题的判别词( gensim

浏览 14提问于2014-02-04得票数 20

回答已采纳

2回答

如何衡量Doc2vec模型的准确性？

、、

有没有办法使用Gensim而不是使用Gensim的most_similar()函数来测量Doc2Vec模型的精度

浏览 44提问于2020-04-04得票数 1

回答已采纳

1回答

以Pandas为中间人将多个html表导出到Excel中

、、、、

我正在从一个网站收集1981-2018年的数据，其中显示2018年的数据：data_url = [pd.read_csv(url[i], sep=" ", header=None) for i in range(len(url))]首先，是否有一种比上述清单理解更清晰第二，如何将整个列表理解导出到Excel电子表格？data_url)): data_url[i].to_excel(

浏览 1提问于2018-02-20得票数 1

回答已采纳

1回答

SparkSQL: intra应用程序表注册

上下文。I将数十个查询存储在单独的文件中。为了进行基准测试，我创建了一个应用程序，它遍历每个查询文件并将其传递给独立的Spark应用程序。后一种方法首先解析查询，提取使用过的表，注册它们(在Spark <2中使用：registerTempTable()，在Spark 2中使用createOrReplaceTempView() )，并有效地执行查询(spark.sql())。由于注册这些表可能很费时，所以我想惰性地注册这些表，即第一次使用时只注册一次，并将其保持在元数据的形式，这些元数据可以很容易地在后续查询中使用，而无需在每次查询中重新注册表。据我所知，这是一种作业内缓存，但不是Spa

浏览 1提问于2016-11-11得票数 1

3回答

将未知大小的列表拆分为带有no的dataframe。列数

、、、、

lol)0 [1, 2, 3]2 [3, 2]4 [2, 3, 4]如何将列表拆分为如果列表小于3，则使用None填充列表 0 1 21 3 1.0 1.0n = 3 for row in

浏览 2提问于2017-10-09得票数 1

回答已采纳

1回答

如何用Pandas删除小于一定数量项或字符串的行？

、、、、

我希望删除列表中包含少于3个字符串或项的任何行。我的问题将进一步得到更明确的解决。dr = pd.DataFrame(r) dr0 = dr[dr.astype(str)['PLATSBESKRIVNING'] !我现在的问题是，我希望删除列表中包含少于3个字符串的任何行，例如第3、第6和第7行。我也想知道是否

浏览 1提问于2017-08-06得票数 3

回答已采纳

5回答

从文本内容生成标签

、、、、

我很好奇是否存在一种算法/方法，通过使用一些权重计算、出现比率或其他工具，从给定的文本生成关键字/标签。谢谢

浏览 2提问于2010-04-18得票数 51

回答已采纳

点击加载更多