lda 文本挖掘_文本挖掘_Web文本挖掘 - 腾讯云开发者社区

、、

我试图理解为什么潜在的狄利克雷分配(LDA)在像Twitter这样的短文本环境中表现不佳。我已经读过论文“A biterm topic model for short text”，然而，我仍然不理解“单词共现的稀疏性”。在我看来，LDA的生成部分对于任何类型的文本都是合理的，但在短文本中导致糟糕结果的是采样过程。我猜LDA基于两个部分对一个单词的主题进行采样：(1)同一文档中其他单词的主题(2)该单词其他出现的主题分配。由于短文本的(1)部分不能反映它的真实分布，这会导致每个单词的主题分配不佳。如果你发现了这个问题，请随时发表你的想法，并帮助我理解这一点。

浏览 2提问于2015-04-22得票数 25

回答已采纳

1回答

为什么sklearn LDA转换非常慢？

、、、

我正在使用病毒式学习潜在的Dirichlet分配进行主题建模。lda_object适合于文本语料库。现在，我们将其与一个文本进行拟合，以了解其主题权重。 def append_lda_features(df, lda_vectorizer, tfidf+vector): from time import time st = time() lda_vector = lda_vectorizer.transform(tfidf_vector) print(time() - st) lda_vector = pd.DataFrame(lda_vect

浏览 81提问于2021-02-07得票数 0

2回答

难以概念化如何让LDA-Ruby读取多个.txt文件

、、

我正在尝试编写一个Ruby脚本，它将查看一组非结构化的纯文本文件，并且我正在努力思考处理这些文件的最佳方法。我的主题建模脚本的当前工作版本如下： #!/usr/bin/env ruby -w require 'rubygems' require 'lda-ruby' # Input a directory of files FILES_DIRECTORY = ARGV[0] File.open("files.csv", "w") do |f| Dir.glob(FILES_DIRECTORY + "*.txt&#

浏览 7提问于2012-05-01得票数 2

回答已采纳

1回答

使用Gensim或其他python LDA包来使用来自Mallet的经过训练的LDA模型

、、

我有一个在Java中通过Mallet训练的LDA模型。从Mallet LDA模型生成了三个文件，这允许我从文件运行模型并推断新文本的主题分布。现在，我想实现一个Python工具，它能够根据经过训练的LDA模型，在给定新文本的情况下推断主题分布。我不想在Python中重新训练LDA模型。因此，我想知道是否可以将经过训练的Mallet LDA模型加载到Gensim或任何其他python LDA包中。如果是这样，我该怎么做呢？感谢您的回复或评论。

浏览 18提问于2017-05-04得票数 5

1回答

在R中加载LDA函数时出现的问题

、

我正在为R使用文本挖掘tm库。我正在运行R版本3.3.1 我有这样的代码： lda <- LDA(docterm,k = 3,method = 'Gibbs') lda.topics <- as.matrix(topics(lda)) lda.terms <- as.matrix(terms(lda,5)) topic.terms <- c() topic.terms[1] <- paste(c(lda.terms[,1],'\n'),collapse = '\n') topic.terms[2] <-

浏览 2提问于2016-10-19得票数 4

回答已采纳

1回答

如何应用主题建模？

、

我有5个主题的10000条推文。假设我知道基本事实(每个tweet的实际主题)，并将tweet分组为5个文档，其中每个文档包含特定主题的tweet。然后，我将LDA应用到主题数量设置为5的5个文档上，在这种情况下，我得到了很好的主题词。现在，如果我不知道tweet的基本事实，我如何才能使LDA仍然为我提供描述5个主题的良好主题词的输入文档。如果我通过随机选择一个tweet样本来创建输入文档，该怎么办？如果在输入文档中出现类似的主题混合，该怎么办？LDA是否应该像第一段那样找到好的主题词？

浏览 2提问于2015-04-04得票数 1

1回答

用python编写的LDA算法代码不是很清楚

、

我正在尝试使用python和Gensim实现潜在的Dirichlet分配( LDA )，我也引用了一个网站上的LDA代码，但我仍然不是很清楚LDA的python代码。谁知道LDA的人可以向我解释清楚的方式，根据代码如下所示。我还上传了LDA公式，这是维基百科上的一张图片。在本例中，LDA用于分析文本文档的集合。 lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=id2word,

浏览 18提问于2019-04-02得票数 3

回答已采纳

1回答

LDA2Vec实现示例？

、、、

嗨，谁能帮我介绍一下使用python的LDA2Vec工作示例吗？请假定dataframe df有包含文本数据的列"Notes“。我正在尝试实现"cemoody/lda2vec“github示例，但得到了多个问题-- 1.如何安装spacy包? 2. ImportError:无法从'lda2vec‘3导入名称'preprocess’。ImportError:无法从'LDA2Vec‘导入名称'lda2vec’。不知道我在这里错过了什么。任何帮助/链接都将是非常感谢的。

浏览 2提问于2019-05-08得票数 5

1回答

按主题选择文本(LDA)

、、、

是否可以查找特定主题内的文本(由LDA确定)？我有一个5个主题的列表，每个主题有10个单词，通过使用lda找到。我已经分析了dataframe列中的文本。我想选择/过滤某个特定主题中的行/文本。如果您需要更多信息，我将为您提供。我指的是返回以下输出的步骤： [(0, '0.207*"house" + 0.137*"apartment" + 0.118*"sold" + 0.092*"beach" + ' '0.057*"kitchen" + 0.049*"rent&

浏览 19提问于2020-06-17得票数 3

回答已采纳

1回答

为什么在使用gensim计算LDA的一致性分数时速度如此之慢

、、

我是新手，当我使用gensim CoherenceModel为我的LDA模型计算一致性分数时，它需要非常长的时间才能运行。然而，训练部分相对较快，并且在合理的时间内。我想知道这是不是因为我的数据大小(大约250000长文本)，有什么方法可以加速这个过程？谢谢这是我的代码，与教程中的代码完全相同 from gensim.models import CoherenceModel coherence_model_lda = CoherenceModel(model=lda_model_tfidf, texts=LDA_, dictionary=dictionary, coherence='

浏览 342提问于2019-06-22得票数 1

1回答

在主题建模时为每个文本分配多个主题

、、、、

使用下面的quanteda函数，我想为每个文本分配多个主题，但不确定如何实现这一点。目前，它只为每个文本分配一个主题。 corp_news <- data_corpus_inaugural news_dfm <- dfm(corp_news, remove_punct = TRUE, remove_numbers = TRUE, remove_symbol = TRUE, remove=stopwords("en")) tmod_lda <- textmodel_lda(news_dfm, k = 10) news_dfm$topic <- top

浏览 16提问于2021-07-12得票数 0

1回答

gensim在Scikit学习中的simple_preprocess替代方案是什么？

、、

通过使用Gensim执行LDA，我能够使用以下方法进行初始文本预处理和清理： gensim.utils.simple_preprocess(str(sentence),deacc=True) 它非常高效，几乎可以在一个命令中进行所有形式的文本清理。现在，我正在尝试使用Scikit LDA来学习LDA，我想知道是否有类似的方法来使用Sci-kit学习来实现相同的预处理，而不是必须加载两个库。

浏览 1提问于2022-03-27得票数 0

1回答

在C64/程序集中更改没有颜色内存的文本颜色

、、

我有下面的代码，它很好用。它清除屏幕，在屏幕上前12个字符的颜色记忆中放置一些颜色，并在屏幕上打印文本。 jsr $e544 ldx #$00 lda #3 loopclr: sta $d800,x inx cpx #$0c bne loopclr ldx #$00 lda #0 loop: lda message,x sta $0400,x inx cpx #$0c bne

浏览 4提问于2015-02-19得票数 7

回答已采纳

1回答

第1行上的commodore 64平滑滚动条-如果在第0行设置中断，则会在屏幕上跳来跳去

、、

我在屏幕上的第1行有一个水平平滑的滚动文本。通过在$d016的最低7位上迭代，使用$d016硬件滚动效果来产生平滑滚动效果)。滚动条在屏幕的第1行运行。我已经设置了两个光栅中断。 "noScroller“中断是屏幕中不应该滚动的部分-除了第1行之外，它是整个屏幕。 “scroll”是发生在第1行的中断。我将此中断设置为#50，尽管我认为将其设置为#0是有意义的，因为滚动应该只发生在第1行，但如果我将其设置为#0，则滚动文本会跳来跳去。 "noscroller“中断将发生在第66行-如果我将其设置为#58，似乎就是第1行发生的地方，那么滚动文本就会开始奇怪地跳来跳去。我的问题

浏览 20提问于2019-03-09得票数 3

回答已采纳

1回答

火花的潜在Dirichlet分配(LDA)

、、

我试图在星火中编写一个程序，用于执行潜在的Dirichlet分配(LDA)。这个火花文档提供了一个很好的示例，用于对样本数据进行LDA。下面是程序 from pyspark.mllib.clustering import LDA, LDAModel from pyspark.mllib.linalg import Vectors # Load and parse the data data = sc.textFile("data/mllib/sample_lda_data.txt") parsedData = data.map(lambda line: Vectors.den

浏览 2提问于2017-02-05得票数 13

回答已采纳

1回答

如何修复freeze_support()错误，用于计算LDA的计算复杂性和一致性？

、、、、

我将为LDA计算文本数据的复杂性和连贯性。我运行以下代码 # Compute Perplexity print('\nPerplexity: ', lda_model.log_perplexity(corpus)) # a measure of how good the model is. lower the better. # Compute Coherence Score coherence_model_lda = CoherenceModel(model=lda_model, texts=data_lemmatized, dictionary=id2word, cohe

浏览 48提问于2021-04-14得票数 0

1回答

用于计算机视觉的Python中的LDA

、、、

我正在使用LDA(隐狄利克雷分配)主题建模进行基于内容的图像检索。我也希望使用Python来做同样的事情。我在Python for LDA for image dataset中找不到任何库/包，包似乎只适用于文本语料库。请在Python中为图像语料库推荐任何软件包，或简要列出执行图像LDA所需的步骤。

浏览 6提问于2017-03-07得票数 0

1回答

对于主题建模，在Amazon中，LDA和NTM有什么区别？

、

我在寻找LDA和NTM之间的区别。您将在NTM上使用LDA的用例是什么？根据AWS文档： SageMaker潜在Dirichlet分配算法( LDA )是一种无监督学习算法，它试图将一组观测数据描述为不同类别的混合。LDA最常用于发现文本语料库中文档所共享的特定数量的主题。虽然您可以同时使用Amazon和SageMaker算法进行主题建模，但它们是不同的算法，可以在相同的输入数据上产生不同的结果。

浏览 5提问于2019-11-29得票数 5

3回答

如何修正LDA模型一致性评分运行时错误？

、、、、

text='Alice是一个student.She，studying.Teachers给了很多家庭生活。‘ 我试图用一致性score.This从一个简单的文本(如上面)获取主题，这是我的LDA模型： id2word = corpora.Dictionary(data_lemmatized) texts = data_lemmatized corpus = [id2word.doc2bow(text) for text in texts] lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,

浏览 19提问于2020-05-17得票数 2

回答已采纳

1回答

LDA从术语文档矩阵中返回数字而不是单词

、、

我试图使用LDA函数来评估R中的文本语料库，但是当我这样做时，它似乎使用的是观察的行名，而不是语料库中的实际单词。我在网上找不到任何关于这个的东西，所以我想我一定是在做一些非常基本的错误的事情。 library(tm) library(SnowballC) library(tidytext) library(stringr) library(tidyr) library(topicmodels) library(dplyr) #read in data data <- read.csv('CSV_format_data.csv',sep=',') #Cr

浏览 0提问于2018-03-28得票数 1

回答已采纳

1回答

WNTM、BTM和LF-LDA等短文本的主题模型是否创建了类似于文档术语矩阵的内容？

、、、

我正在处理短文本的主题建模，并遇到了三个关注相同主题的模型: biterm主题模型(BTM)、单词网络主题模型(WNTM)和潜在特征LDA (LF-LDA)。我知道对于传统的LDA (我已经使用R包topicmodel实现了它)，文本文档的非结构化形状通过构造文档术语矩阵(DTM)转换为计算机可读的格式。我想知道上面提到的模型是否使用了类似的实现方式，特别是如果它们还创建了一个类似于DTM的矩阵。有人知道吗？不幸的是，我无法通过阅读原始论文找到这些信息。提前谢谢你！

浏览 8提问于2017-11-14得票数 1

2回答

主题建模: LDA vs LSA vs ToPMine

、、、

我刚开始学习主题建模。可以用Python实现ToPMine吗？在快速搜索中，我似乎找不到任何带有ToPMine的package。 ToPMine比LDA和LSA好吗？我知道LDA和LSA已经存在了很长时间，并且得到了广泛的应用。谢谢

浏览 0提问于2022-01-20得票数 2

回答已采纳

2回答

如何保存Gensim LDA模型列表？

、、、

我在一个列表中存储了不同的LDA模型(在相同的文本上，但都有不同的#主题)。现在，我想将这个列表和其中的所有型号保存到我的磁盘上。然而，我不确定这是如何工作的。我应该把is当做一个列表还是一个LDA模型？在gensim website上，我找到了以下代码： from gensim.test.utils import datapath >>> >>> # Save model to disk. >>> temp_file = datapath("model") >>> lda.save(temp_file

浏览 60提问于2019-06-27得票数 0

回答已采纳

2回答

python学习，获取LDA中每个主题的文档

、、、

我正在对文本数据执行LDA，使用示例：我的问题是：如何知道哪些文档对应于哪个主题？，换句话说，文档中谈论的主题1是什么？以下是我的步骤： n_features = 1000 n_topics = 8 n_top_words = 20 我逐行读取我的文本文件： with open('dataset.txt', 'r') as data_file: input_lines = [line.strip() for line in data_file.readlines()] mydata = [line for line in input_line

浏览 5提问于2017-07-17得票数 8

回答已采纳

1回答

在主题建模中使用Word2vec输出作为LDA的输入

、、

我读到过，最常见的主题建模技术(从文本中提取可能的主题)是潜在狄利克雷分配(LDA)。但最近我了解了另一个模型lda2vec。但是，我感兴趣的是，尝试将Word2Vec输出作为LDA的输入是否是一个好主意。你认为为了一些研究而遵循这种方法有意义吗？因为我正在做主题建模，需要一些新的方法。

浏览 16提问于2019-11-25得票数 1

1回答

如何从已有的文本聚类中提取主题？

、、、

我在一个文本语料库上执行了硬聚类(使用tf-idf权重)，并获得了~= 200聚类。如果我想获取每个集群的topic，我该怎么做？我已经尝试在原始文本语料库(预聚类)上使用LDA，并获得了许多主题，但是我不确定如何将这些主题映射到我现有的每个聚类上。有没有其他方法可以推荐LDA，或者LDA是正确的方法，我该如何继续呢？在线材料只展示了如何将lda主题映射到文档句子上，而不是预先存在的聚类。如果我这样做，并根据它们分配的主题对这些句子进行分割，我将得到与原始聚类不同的结果(这并不理想)。感谢您的帮助提前，如果有任何概念上的错误，请原谅，因为我是相当新的NLP。

浏览 38提问于2019-12-16得票数 1

回答已采纳

2回答

如何在两列中显示交替的文本行？

、

我有一段代码，所有的文本行都会同时出现在屏幕上。现在我想让每一条线从屏幕的另一边出现(即：左起第一行，右起第二行，等等)。有人能帮上忙吗？ Start SEI LDX #$01 STX $0286 DEX STX $D020 STX $D021 JSR $E544 mai

浏览 19提问于2019-05-16得票数 1

回答已采纳

1回答

基于SVM的分类

、、、、

为了对文本进行分类，我想使用支持向量机。我想将测试数据分类为一个标签(健康/成人)，培训和测试数据是文本文件。我在使用python的scikit库。当我将文本保存到txt文件时，我用utf-8对其进行了编码，这就是为什么我要在代码片段中对它们进行解码。这是我尝试的代码 String = String.decode('utf-8') String2 = String2.decode('utf-8') bigram_vectorizer = CountVectorizer(ngram_range=(1, 2),

浏览 0提问于2016-07-27得票数 0

回答已采纳

1回答

R- LDA主题模型输出数据

、、

我正在使用'topicmodels‘包在R中构建一些主题模型。在预处理和创建文档术语矩阵之后，我将应用以下LDA Gibbs模型。这可能是一个简单的答案，但我是R的新手，所以它是这样的。有没有办法将主题和术语列表连同它们的概率一起导出到文本文件或excel文件中？我可以在R中打印它们(如下所示)，但不知道如何导出:( 这主要是为了我可以做一些可视化，我确信可以在Excel中完成，但就像我前面提到的那样，我是一个新手，没有太多的机会学习R中的可视化技术。希望这是有意义的 k = 33 burnin = 1000 iter = 1000 keep = 50 seed = 2003 mo

浏览 0提问于2014-05-28得票数 4

1回答

卜氏中的多项式朴素Bayes，预测澄清

对于一个大型的数据集文本分类问题，我使用了各种分类器，包括LDA、RandomForest、kNN等，准确率达到了78-85%。然而，使用bnlearn的多项式朴素贝叶斯的准确率为97%。调查了为什么准确度如此之高，问题似乎与预测中的bnlearn -也许我使用了错误的参数。使用示例数据集进行说明。 Long Sweet Yellow Fruit Yes Yes Yes Banana Yes Yes Yes Banana Yes Yes Yes Banana Yes Yes Yes Banana No Yes Yes Banana No Yes Yes Orang

浏览 0提问于2016-06-18得票数 1

回答已采纳

1回答

我能把LDA (潜在的dirichlet分配)应用于不同的语言语料库吗？

、

我试图分析一个文本语料库从土耳其的虚拟社区网站，以检查用户生成的内容，在抗议。具体来说，我计划应用LDA来确定主题。我以前没有使用过LDA，我不知道它是否适用于不同的语言设置。谢谢

浏览 2提问于2015-02-09得票数 2

回答已采纳

3回答

从gensim LDA模型中提取主题分布

、、

我使用python中的gensim包为一些文本文件创建了一个LDA模型。我想获得学习模型的主题分布。在gensim ldamodel类中是否存在从模型中获取主题分布的方法或解决方案？例如，我使用一致性模型来寻找一个模型，该模型的值与1到5的主题数有关。得到最佳模型后，我使用get_document_topics方法(感谢)来获取用于创建该模型的文档中的主题分布。 id2word = corpora.Dictionary(doc_terms) bow = id2word.doc2bow(doc_terms) max_coherence = -1 best_lda_model = None

浏览 1提问于2018-08-29得票数 2

回答已采纳

1回答

如何在R中实现LDA

、、

我的任务是在amazon评论的数据集上应用LDA，并获得50个主题。我已经用向量提取了评论文本，现在我正在尝试应用LDA。我创建了dtm matrix <- create_matrix(dat, language="english", removeStopwords=TRUE, stemWords=FALSE, stripWhitespace=TRUE, toLower=TRUE) <<DocumentTermMatrix (documents: 100000, terms: 174632)>> Non-/sparse entries: 4

浏览 0提问于2016-02-08得票数 1

1回答

具有Bokeh和T-sne的Viz LDA模型

、、

我尝试按照这个教程()使用t-sne和bokeh来可视化LDA。但我遇到了一点问题。当我尝试运行以下代码时： plot_lda.scatter(x=tsne_lda[:, 0], y=tsne_lda[:, 1], color=colormap[_lda_keys][:num_example], source=bp.ColumnDataSource({ "content": text[:num_example], "topic_key": _l

浏览 1提问于2018-02-15得票数 2

1回答

词频对Gensim LDA主题建模的影响

、、、、

我正在尝试使用Gensim LDA建模来建立食物食谱数据集的主题模型。我希望有基于食谱的关键成分的主题。但食谱文本包含了更多通用英语的单词，而不是配料名称。因此，我的主题结果并不像预期的那样好。我正在尝试理解词频在LDA主题结果中的影响。谢谢。

浏览 6提问于2020-03-14得票数 1

1回答

用于文本聚类的主题建模效率低下

、、、

我尝试使用LDA进行文本聚类，但它没有给出清晰的聚类结果。下面是我的代码 #Import libraries from gensim import corpora, models import pandas as pd from gensim.parsing.preprocessing import STOPWORDS from itertools import chain #stop words stoplist = list(STOPWORDS) new = ['education','certification','certificate'

浏览 0提问于2018-03-20得票数 0

2回答

提出文本主题分类的深度学习模式

、、、、

我有一个由两列文本topic_labels组成的数据集。Topic_labels分为6类:植物、动物、鸟类、昆虫等。我想建立基于深度学习的模型，以便能够对topic_labels进行分类。到目前为止，我已经实现了supervisedSVM，Logistic和非监督的主题-LDA，指导-LDA方法，以传统的方式应用Word2Vec和TF-以色列国防军，但我想对文本数据实施最先进的深度学习分类技术？为文本主题分类推荐最佳的深度学习模式

浏览 9提问于2022-02-01得票数 -1

1回答

牛郎星:对不反映期望的“文本”图表进行排序

、

这是对的直接后续，使用相同的数据(为便于参考而包括)。我在评论部分问了一个后续问题，但在我自己做了一个旋转，并接近，我正在创造一个新的问题。 Unnamed: 0,Species,Unknown,group,LDA Score,p value 11,a,3.474929757,bad,3.07502591,5.67e-05 16,b,3.109308852,bad,2.739744898,0.000651725 31,c,3.16979865,bad,2.697247855,0.03310557 38,d,0.06730106400000001,bad,2.347746497,0.013009

浏览 7提问于2020-03-11得票数 1

回答已采纳

1回答

我想我已经解决了光栅中断文本/位图模式，但是我有这个奇怪的文本错误。

、、、

汇编程序：。嗨，各位，圣诞快乐和节日快乐:)我的课间的文本输出是怎么回事？我一定是漏掉了一些显而易见的东西，但请看附图. 它应该说： “进入第一个候选人范围.” *位图显示 “开始我的Y/N?” 看一看附图，自己看一看。下面是密码。谢谢你抽出时间来看一看，这让我整晚都很困惑！ :) James ; 10 SYS (2064) *=$0801 BYTE $0E, $08, $0A, $00, $9E, $20, $28, $32, $30, $36, $34, $29, $00, $00, $00 ;Sexy Subroutines... CHROUT =

浏览 5提问于2021-12-21得票数 0

回答已采纳

1回答

两种LDA模型的比较

、、

我正在研究Twitter数据的主题建模。我提取数据并将其存储在MySQL表中。这些列是日期、位置、UserID、文本、tweetID、weekID(基于我指定的日期，它属于哪个星期)。我还收集了每周的数据，并为每周建立了一个LDA模型。我目前正在使用来自Gensim的pyLDAvis来可视化每周的主题。有没有办法比较我每周的LDA模型。我想比较一下它们，这样我就可以看到一个特定的话题是如何在几周内发生变化的。任何想法都是非常感谢的。我试图建立每周的LDA模型，并将它们保存到html和LDA模型文件中。我想看看这几周的话题是如何变化的。

浏览 5提问于2022-03-28得票数 0

1回答

Pandas .at不工作，数据帧不变

、

有了一个很大的文本DataFrame，我想首先在它上面训练和LDA模型。所以我这么做了： doc_clean = df['tweet_tokenized'].tolist() dictionary = corpora.Dictionary(doc_clean) doc_term_matrix = [dictionary.doc2bow(doc) for doc in doc_clean] lda = LdaMulticore(doc_term_matrix, id2word=dictionary, num_topics=50) 现在我有了经过训练的lda，我想要逐行迭代抛出df

浏览 3提问于2018-12-04得票数 2

1回答

将R矩阵转换为text2vec dtm

、、

我有一个R矩阵mat，我想对它执行LDA。当我运行lda_model$fit_transform(mat, n_iter = 20)时，我得到一个错误： Error in super$check_convert_input(x) : don't know how to deal with input of class 'matrix' 有没有简单的方法来解决这个问题？我的矩阵的来源不是文本，我不想进入词汇表、itoken()等。

浏览 2提问于2019-03-27得票数 0

2回答

数据挖掘中的100%精度

、、、

我目前正在与主题模型，特别是LDA，现在我问自己是否有可能达到完全准确的结果。如果我不了解主题模型的结果，那么每个文档的总体主题分配都是很好的，但是有些文档得到了一个不太适合的指定主题。所以总的来说，我得到了一个准确的大约。85\%。数据挖掘中是否有可能达到100\%的精度？

浏览 0提问于2020-01-30得票数 1

1回答

外语编码中的无效多字节字符串

、、、

我正在使用R的stm分析已解析/分段的外语(简体中文)文本文档，以利用该软件包的绘图环境。我没有使用包的内置文本处理函数，因为它目前不支持处理中文文本；但是，在我成功地准备了数据(它需要lda格式的documents和vocab以及相同行长的原始元数据)并对模型进行拟合后，plot()函数抛出了一条错误消息，这似乎是由于预处理阶段的一些编码问题： Error in nchar(text) : invalid multibyte string, element 1 根据前面一些线程的建议，我应用了和中的编码函数将vocab编码为UTF-8，并再次重新绘制估计结果，但它返回了相同的错误。我想知道编

浏览 141提问于2019-08-03得票数 0

回答已采纳

1回答

LDA主题模型问题

、、

我对twitter数据做了一些文本挖掘练习。最初的dataframe有1280行。为避免： LDA中的错误(dtm_cea，k= 8)：输入矩阵的每一行至少需要包含一个非零项。我在稀疏矩阵中消除了没有条目的任何行： rowTotals <- apply(dtm , 1, sum) dtm.new <- dtm[rowTotals_cea> 0, ] lda <- LDA(dtm.new, k = 8) topic <- topics(lda, 1) 因此，我的dtm.new丢失了几行；实际上，行数减少到1273行。事实上，现在我需要从原始的da

浏览 4提问于2017-07-11得票数 0

回答已采纳

1回答

如何使用gensim的LDA从查询中进行文本检索？

、、、

我试图了解LDA如何用于文本检索，我目前正在使用gensim的LdaModel模型来实现LDA，这里是：。我成功地识别了k个主题和它们最常用的单词，我知道LDA是关于主题的概率分布，以及单词如何在文档中的主题中分布，所以这很有意义。也就是说，我不明白如何使用LdaModel检索与搜索查询的字符串输入相关的文档，例如“节育的负面影响”。我尝试在搜索查询中推断主题分布，并使用gensim的similarities.MatrixSimilarity计算余弦相似度，找出搜索查询上的主题分布与语料库中的主题分布之间的相似之处： lda = LdaModel(corpus, num_topics=10

浏览 0提问于2018-04-26得票数 3

回答已采纳

1回答

如何将一个按钮的命令函数的返回值作为另一个按钮的命令函数的输入传递

、、

我是新来的，请帮帮我。我已经实现了一个模块(PDF2Text.Py)，它的类有一个函数(convert_pdf_to_txt( path ))，它接受pdf文件的路径并将pdf文件转换为文本。我还实现了另一个模块(TopicModeling.py)，它的类有一个函数(creat_LDA_model( text ))，该函数接受文本并对文本进行主题建模。现在，我想要的是tkinter GUI，即在单击“浏览”按钮时，它使用filedialog.askopenfilename浏览路径，其命令函数将给定的路径发送到PDF2Text.Py的convert_pdf_to_txt(路径)函数。然后

浏览 9提问于2019-02-03得票数 0

2回答

R中的LDA错误:输入矩阵的每一行至少需要包含一个非零条目

我是一个文本挖掘主题的初学者。当我对一个包含996165个观测值的大型数据集运行LDA()时，它显示以下错误： LDA中出错(dtm，k，method = "Gibbs"，control = list(nstart = nstart，：输入矩阵的每一行都需要包含至少一个非零条目。我非常确定在我的语料库中没有缺失值，而且。"DocumentTermMatrix“和"simple_triplet_matrix”的表如下： table(is.na(dtm[[1]])) #FALSE #57100956 table(is.na(dtm[[2]])) #FALSE

浏览 0提问于2016-06-14得票数 6

1回答

R没有正确显示阿拉伯文本

、

我在阿拉伯语文本语料库上运行一个简单的无监督学习模型，这个模型运行良好。然而，我对那些效果不佳的情节有一个问题，因为它们从左到右打印阿拉伯字符，而不是从右到左的正确格式。下面是我使用的包： #Loading packages library(tidyverse) require(readxl) require(writexl) library(quanteda) library(stm) library(stmCorrViz) theme_set(theme_bw()) 无监督主题模型的代码： #Fitting a simple topic model (LDA) #4 topics ld

浏览 5提问于2022-02-04得票数 1

回答已采纳

1回答

处理用于LDA分析的大量单词(>1亿)时处理内存错误

、、、

我有5万个文件--总共有1.62亿字。我想使用类似于本教程的Gensim进行主题建模。因此，LDA需要将文档标记为单词，然后创建一个单词频率字典。因此，我将这些文件读入熊猫的dataframe (“content”列包含文本)，然后执行以下操作来创建文本列表。 texts = [[word for word in row[1]['content'].lower().split() if word not in stopwords] for row in df.iterrows()] 但是，由于字数大，我一直遇到内存错误。我还尝试了Python中的TokenVectoriz

浏览 0提问于2018-09-05得票数 1