如何在gensim中获得过滤后的二元文法的分数？

在gensim中获得过滤后的二元文法的分数，可以通过以下步骤实现：

首先，导入所需的库和模块：

from gensim.models import Phrases
from gensim.models.phrases import Phraser

准备文本数据，并将其分词：

sentences = [['this', 'is', 'an', 'example', 'sentence'],
             ['another', 'sentence'],
             ['yet', 'another', 'example', 'sentence']]

使用Phrases类构建二元文法模型：

bigram = Phrases(sentences, min_count=1, threshold=1)

其中，min_count参数指定了一个词组（二元文法）在语料中出现的最小次数，threshold参数指定了一个词组被当作二元文法的阈值。

使用Phraser类将二元文法模型转换为更高效的形式：

bigram_phraser = Phraser(bigram)

对文本数据进行二元文法过滤：

filtered_sentences = [bigram_phraser[sentence] for sentence in sentences]

计算过滤后的二元文法的分数：

scores = []
for sentence in filtered_sentences:
    score = 0
    for word in sentence:
        score += bigram.score([word])
    scores.append(score)

在上述代码中，我们遍历过滤后的每个句子，然后遍历句子中的每个词语，使用bigram.score([word])计算每个词语的二元文法分数，并将其累加到句子的分数中。

以上就是在gensim中获得过滤后的二元文法的分数的步骤。对于gensim库的更多详细信息和使用方法，可以参考腾讯云的相关产品介绍链接：gensim产品介绍。

尝试用gensim模仿Scikit ngram

、、

我正在尝试用gensim模拟CountVectorizer()中的n_gram参数。我的目标是能够将LDA与Scikit或Gensim一起使用，并找到非常相似的二元语法。例如，我们可以找到以下带有scikit的二元模型："abc computer"，"binary unordered“和gensim "A survey"，"Graph minors”…… 我在下面附上了我的代码，以比较Gensim和Scikit在二元/单元语法方面的差异。谢谢你的帮忙 documents = [["Human" ,"machine

浏览 1提问于2017-05-11得票数 0

1回答

手动将搭配添加到gensim词组

、

我正在对语言学论文进行主题建模，并使用Gensim短语来识别频繁的搭配。我希望能够将术语标记为“do-support”和“it-cleft”作为一个单词，因为它们是特定的语言术语。然而，如果我在删除停用词之后创建Gensim模型，将找不到这些搭配(因为它们包含停用词)，如果我在删除停用词(或者不包括' it‘或’do‘的停用词)之后创建模型，它会识别出一大堆不相关的搭配。有没有办法手动添加应该被Gensim短语识别为搭配的短语？谢谢!

浏览 0提问于2017-08-22得票数 2

1回答

为什么不是所有的二元语法都在gensim的‘`Phrases`’工具中创建？

、、、、

我使用gensim创建了一个二元模型，并尝试获取二元句子，但它没有选择所有的二元句子，为什么？ from gensim.models.phrases import Phrases, Phraser phrases = Phrases(sentences, min_count=1, threshold=1) bigram_model = Phraser(phrases) sent = [u'the', u'mayor', u'of', u'new', u'york', u'was', u'th

浏览 10提问于2020-02-07得票数 1

回答已采纳

1回答

如何仅生成二元/三元语料库

、、

Gensim有没有办法在单词列表中严格生成二元语法和三元语法？我可以成功地生成一元、二元、三元，但我只想提取二元、三元。例如，在以下列表中： words = [['the', 'mayor', 'of', 'new', 'york', 'was', 'there'],["i","love","new","york"],["new","york","is","gr

浏览 1提问于2020-01-17得票数 0

1回答

如何在gensim中获得过滤后的二元文法的分数？

、、

给定文档单词列表，例如[['cow','boy','hat','mat],['village','boy','water','cow']....]，可以使用gensim来获取二元语法，如下所示： bigrams = gensim.models.Phrases(data_words, min_count=1,threshold=1) bigram_model = gensim.models.phrases.Phraser(bigrams) 我想知道如何获得在bigram_m

浏览 18提问于2020-07-22得票数 0

回答已采纳

1回答

如何在haskell中得到一个数字的一部分

、

我有个号码： 1.89 但我想要这部分数字 0.89 有办法吗？(Haskell)

浏览 0提问于2020-08-19得票数 2

回答已采纳

1回答

Gensim中的filter_extreme

、、

我刚刚开始使用Gensim模块。我将filter_extreme应用于我处理过的文档。 dictionary = gensim.corpora.Dictionary(processed_docs) print(len(dictionary)) 输出为91436 然后我应用了filter_extreme， dictionary.filter_extremes(keep_n=None) print(len(dictionary)) 输出为20687。在Gensim文档中，keep_n=None将保留所有令牌，但在我的示例中，令牌减少了70000。我是不是误解了filter_extremes的功能

浏览 4提问于2021-03-14得票数 0

2回答

使用gensim查找bigram

、、

这是我的代码 from gensim.models import Phrases documents = ["the mayor of new york was there the hill have eyes","the_hill have_eyes new york mayor was present"] sentence_stream = [doc.split(" ") for doc in documents] bigram = Phrases(sentence_stream, min_count=1) sent = ['th

浏览 3提问于2019-09-16得票数 0

1回答

Gensim短语找不到一些二元语法

、、

我想得到符号(单词的字母)的二元模型。例如，对于单词"done“和"dog”，我希望能够找到二元语法"do“。我试着用gensim.Phrases写，但对我不起作用。下面是我的代码： from gensim.models import Phrases documents = ["God", "Good","happy","hangry","pypi"] documents_proc = [list(doc) for doc in documents] bigram = Phrase

浏览 24提问于2019-04-29得票数 0

1回答

为什么在使用gensim计算LDA的一致性分数时速度如此之慢

、、

我是新手，当我使用gensim CoherenceModel为我的LDA模型计算一致性分数时，它需要非常长的时间才能运行。然而，训练部分相对较快，并且在合理的时间内。我想知道这是不是因为我的数据大小(大约250000长文本)，有什么方法可以加速这个过程？谢谢这是我的代码，与教程中的代码完全相同 from gensim.models import CoherenceModel coherence_model_lda = CoherenceModel(model=lda_model_tfidf, texts=LDA_, dictionary=dictionary, coherence='

浏览 342提问于2019-06-22得票数 1

1回答

如何打印gensim词典和语料库

、、

我无法理解如何打印以下代码的输出 # make gensim dictionary and corpus dictionary = gensim.corpora.Dictionary(boc_texts) corpus = [dictionary.doc2bow(boc_text) for boc_text in boc_texts] tfidf = gensim.models.TfidfModel(corpus) corpus_tfidf = tfidf[corpus] 我要打印关键词组和他们的烦躁分数。谢谢

浏览 1提问于2017-04-27得票数 2

回答已采纳

2回答

检查词表中双字词的出现次数

我正在尝试计算单词列表中每个唯一的二元语法的出现次数。同时还可以跟踪独特的单字。例如，如果我有一个列表： [['like','this','movie'], ['i','fall','like','this']] 我有二元组，['like','this],['this','movie]等等。二元语法['like','this']出现两次，所以我想创建一个数据结构(字典？)这将跟踪二元语法(关键字)和它

浏览 1提问于2020-03-07得票数 0

1回答

未观察到min_count参数的gensim短语

、

我正在尝试用二元语法训练一个gensim Word2Vec模型。为了获得二元语法，我运行以下代码，其中sentences代表使用nltk.sent_tokenize的一长串拆分句子，使用空格进行词形区分，然后小写： from gensim.models import Word2Vec, Phrases bigrams = Phrases(sentences, min_count=20, threshold=10) 这只能包括出现>= 20次的二元语法。但是当我运行bigrams.vocab时，我得到： defaultdict(int, b'inflat

浏览 0提问于2020-01-11得票数 0

3回答

如何在solr查询中排序前按分数进行限制

、

我正在搜索“产品文档”。换句话说，我的solr文档就是产品记录。我想要获取查询的前50个匹配产品。然后，我希望能够按名称或价格对排名前50的文档进行排序。我没有看到太多关于如何做到这一点，因为按分数排序，然后按名称或价格不会真正有帮助，因为分数是浮点数。我不介意我可以这样做，比如将分数映射到范围(比如8.0-8.99的分数将放在8桶分数中)，然后按范围排序，然后按名称排序，但由于基本上没有对分数进行标准化，这仍然会使事情变得有点困难。如何在排序前从solr结果集中排除低分文档？

浏览 10提问于2010-12-08得票数 6

回答已采纳

2回答

如何构建包含二元语法的gensim字典？

、、

我正在尝试构建一个Tf-Idf模型，它可以使用对双词和单词进行评分。为此，我构建了一个gensim字典，然后使用该字典创建我用来构建模型的语料库的词袋表示。构建字典的步骤如下所示： dict = gensim.corpora.Dictionary(tokens) 其中token是单字和双字的列表，如下所示： [('restore',), ('diversification',), ('made',), ('transport',), ('The',), ('grass',), (

浏览 1提问于2018-07-19得票数 7

1回答

两个文档之间的不同特征

、、、

我试图找出这两份文件之间的不同之处。我正在使用gensim，到目前为止已经获得了相似度分数。有没有办法知道两个文档之间的相异分数和相异特征？如何评估它？

浏览 1提问于2018-07-03得票数 0

1回答

word2vec余弦相似度大于1阿拉伯文本

、、、

我已经从gensim那里训练了我的gensim模型，并且我正在为语料库中的一些词找到最近的邻居。以下是相似的分数： top neighbors for الاحتلال: الاحتلال: 1.0000001192092896 الاختلال: 0.9541053175926208 الاهتلال: 0.872565507888794 الاحثلال: 0.8386293649673462 الاكتلال: 0.8209128379821777 相似性大于1是很奇怪的。我不能将任何词干应用到我的文本中，因为文本包含了许多OCR拼写错误(我从ORC编辑的文档中获得了文本)。我怎样才能

浏览 5提问于2020-12-15得票数 0

回答已采纳

1回答

如何在python中安装gensim并运行包？

、、、、

我想在python 3.7.4中这样做：并得到这个错误：我已经试过了使用conda和pip 使用本地windows和windows服务器包的不同版本的多次重新安装(例如numpy和scipy) from gensim.models import Word2Vec 追溯(最近一次调用)：文件"c:/Users/Administrator/Documents/GitHub/contract-criteria-identifier-on-aws/schnelltest.py"，第1行、导入gensim文件"C:\Users\Administrator\AppDat

浏览 0提问于2019-07-31得票数 1

2回答

将术语文档矩阵传递给Gensim LDA模型

、、、、

我的术语文档矩阵是一种numpy矩阵格式，我有一本字典来表示术语文档矩阵。有什么办法我可以很容易地把这两个传递到Gensim的LDA模型吗？ tdMatrix = np.load('tdmatrix.npy') dictionary = cPickle.load(open('dictionary.p', 'r')) # stores term represented by each column 我能把这个传给gensim.models.ldamodel.LDA吗？

浏览 3提问于2014-12-01得票数 3

回答已采纳

1回答

使用Solr搜索wiki URL

、、

我正在尝试使用Solr在我们的内联网上索引和搜索wiki。我使用edismax或多或少可以做到这一点，但我很难让主主题页面首先出现在搜索结果中。例如，假设我在数据库中有一些URL： http://whizbang.com/wiki/Foo/Bar http://whizbang.com/wiki/Foo/Bar/One http://whizbang.com/wiki/Foo/Bar/Two http://whizbang.com/wiki/Foo/Bar/Two/Two_point_one 我希望能够搜索"foo bar“并将第一个链接作为顶部结果返回，因为它是维基中该特定主题的主页

浏览 4提问于2014-01-28得票数 0

3回答

如何在python中使用嵌套循环加快计算余弦相似度

、、

我试图计算所有值之间的余弦相似度。 1000*20000次计算花费了我超过10分钟的时间。代码： from gensim import matutils # array_A contains 1,000 TF-IDF values # array_B contains 20,000 TF-IDF values for x in array_A: for y in array_B: matutils.cossim(x,y) 有必要使用gensim软件包来获得tf-idf值并进行相似度计算。有人能给我一些建议和指导来加快时间吗？

浏览 3提问于2017-09-18得票数 0

1回答

Gensim函数/参数的SciSpacy等价

、、、

在Gensim中，我有三个经常使用的函数，例如： model = gensim.models.Word2Vec(corpus,size=100,min_count=5) 来自gensim的输出，但我无法理解如何在等效的min_count命令中设置大小和SciSpacy参数： model = spacy.load('en_core_web_md') (输出是嵌入的模型(太大了，无法在这里添加))。这是我经常使用的另一个命令： model.most_similar(positive=['car']) 这是来自gensim/SciSpacy预期输出的输出： [(&#

浏览 2提问于2020-12-08得票数 1

回答已采纳

1回答

word2vec输出后的模型

、、、

我最初是使用一个包字(2克)模型来处理一个分类问题。将2克输出的热编码发送到logistic回归或神经网络建立分类模型。现在，我正在实验gensim word2vec方法，每个单词现在都是来自word2vec的向量。也就是说，如果我的句子有10个单词，它就会变成一个10x30数组(假设word2vec嵌入维数是30)。我不清楚如何像以前那样把这样的输出发送给逻辑回归或神经网络模型。在gensim word2vec输出之后，我应该使用哪种类型的模型来解决分类问题？谢谢!

浏览 0提问于2019-09-02得票数 0

2回答

使用django和django投票应用，我如何根据每个项目的投票来排序问题集？

、、

(我是python和django的新手，所以请耐心等我一下。如果我在其他地方回答了这个问题，但找不到，我深表歉意) 假设我有一个Link模型，通过django投票应用程序，用户可以对链接实例进行投票。如何根据它们的分数对这些链接实例进行排序，例如。首先显示分数较高的那些。我假设我可以使用django- get_top的投票管理器，但这只会给我评分最高的链接实例，而不会考虑我想要添加的其他参数(例如，属于特定用户或分页的那些链接)。我的猜测是为我的Link模型编写一个自定义管理器，通过它我可以根据每个项目的分数过滤查询集。如果我理解正确，这将需要我遍历每个项目，检查其分数，然后将其放入一个列

浏览 5提问于2010-05-17得票数 6

2回答

打印使用gensim学习的二元语法

、、、、

我想使用gensim从语料库中学习二元语法，然后只打印学习到的二元语法。我还没有见过这样的例子。感谢您的帮助 from gensim.models import Phrases documents = ["the mayor of new york was there", "human computer interaction and machine learning has now become a trending research area","human computer interaction is interesting","

浏览 17提问于2018-12-10得票数 2

1回答

KnockoutJS可观测不更新

、、

嗨，我是新手，并开始学习从他们的网站教程。可以观察到的数组应该更新页面中的所有绑定。我正在JsFiddle中练习，我的绑定没有被动态更新。我做错了什么？我期待着，如果我们键入文本框，它应该更新表！ “联合来文法典”： var viewmodel = { posts: ko.observableArray(data) };

浏览 1提问于2013-11-05得票数 0

回答已采纳

1回答

Mallet中的一致性和诊断文件

、、

在Mallet中，我们可以获得一个诊断文件，包括测量每个主题的一致性。在Gensim中，我们对每组主题有一个总分，对每个主题有一个单独的分数()。我有两个问题： 1- Mallet的诊断文件中的coherence方法的名称是什么？ 2-如果我们想使用Mallet诊断文件中的一致性分数来衡量整体分数，我们是否可以只测量一致性分数的平均值？

浏览 5提问于2021-02-20得票数 0

6回答

ModuleNotFoundError:没有名为“gensim”的模块

、、、、

我的目标是在Windows上的Python3中导入gensim。我使用的是Python3.7.2(通过在Windows命令提示符下运行python -V来检查)。我通过运行pip install gensim安装了gensim。我通过运行pip freeze检查了安装，并看到行gensim==3.7.3。然后，我运行命令py进入交互式python模式(仍然在Windows命令提示符下)。我运行了行import gensim，得到了以下输出： Traceback (most recent call last): File "<stdin>", line 1,

浏览 1提问于2019-05-22得票数 1

1回答

Bigram包含weka中的Stopword？

、

我正在处理weka中的一个分类问题，并使用smart 524停用词列表。我在weka中使用NGram标记器。它正确地从unigram中过滤停用词，但二元语法中包含停用词，例如"the east"，"the window“。我之前假设weka可能会首先过滤文本文档中的所有停用词，然后将它们转换为单字和双字，但这并不是发生在那里的事情。有没有办法从bigram中删除停用词?也许我需要另一个针对bigram的停用词文件？从二元语法中删除停用词会提高分类器性能吗？

浏览 0提问于2014-01-25得票数 2

1回答

如何在pyspark应用程序中维护临时字典？

、、、、

我想在pyspark应用程序中使用预先训练好的嵌入模型(fasttext)。因此，如果我广播该文件(.bin)，则会抛出以下异常: Traceback (最近一次调用)： cPickle.PicklingError: Could not serialize broadcast: OverflowError: cannot serialize a string larger than 2 GiB 相反，我尝试使用sc.addFile(modelpath) where modelpath=path/to/model.bin，如下所示：我创建了一个名为fasttextSpark.py的文件 i

浏览 36提问于2019-01-28得票数 5

1回答

Gensim: Word2Vec推荐精度的提高

、、

我试图在中使用令人敬畏的gensim库实现类似的东西，但是与协作过滤相比，我很难提高结果的质量。我有两个模型，一个建立在Apache上，另一个在grouplens 2000万评级数据集上使用gensim Word2Vec。我的apache模型托管在AWS 上，我在本地运行gensim模型。然而，当我比较结果时，我发现CF模型9的结果比10次要好(例如下面的例子更类似于搜索到的与漫威电影的亲和力)。如果我搜索“雷神”电影，我会得到以下结果 Gensim “美国船长:第一复仇者”(2011) X-男子:头等舱(2011年) 类人猿星球的崛起(2011年) 铁人2 (2010)

浏览 0提问于2018-02-10得票数 1

回答已采纳

1回答

Gensim word2vec模型是否与Mikolov的标准模型相同？

、、、

我正在写一篇论文来比较我们的表现。在报纸上，尤瑟尔说 300维预训练的word2vec向量(Mikolov等人，2013年) 我想知道预先训练过的word2vec Gensim模型是否与官方 (googlenews-vectors-neative300.bin.gz文件)上的预训练嵌入相同。我的怀疑来源于Gensim文档中的这一行(在Word2Vec演示部分) 我们将获取在Google部分数据集上培训的Word2Vec模型，涵盖大约300万单词和短语这是否意味着gensim模型没有得到充分的培训？这和Mikolov的官方嵌入有什么不同吗？

浏览 3提问于2020-04-19得票数 0

回答已采纳

2回答

在word2vec中使用freebase时找不到单词

、、、

我试图使用自由基，连同gensim的word2vec，用下面的代码在两个单词的向量之间找到相似的分数。 model = gensim.models.Word2Vec() model = models.Word2Vec.load_word2vec_format('freebase-vectors-skipgram1000-en.bin.gz', binary=True) 在创建了一个基于freebase的模型之后，我的代码给出了任何单词的关键错误。 model.similarity('microsoft', 'apple') 这给了我KeyErro

浏览 7提问于2015-07-01得票数 1

回答已采纳

1回答

Gensim word2vec most_similar按#前缀过滤

、、、、

我在推特上训练了一个word2vec模型。我使用以下命令将其导入gensim from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('./twitter.txt', binary=False) 我想使用一个类似于这个函数的函数： word_vectors.most_similar(positive=['woman', 'king'], negative=['man']) 以显示最相

浏览 0提问于2018-01-07得票数 1

2回答

用gensim解释负Word2Vec相似性

、、、、

例如，我们使用word2vec训练gensim模型 from gensim import corpora, models, similarities from gensim.models.word2vec import Word2Vec documents = ["Human machine interface for lab abc computer applications", "A survey of user opinion of computer system response time", &

浏览 4提问于2017-02-22得票数 21

回答已采纳

2回答

我如何构建生成这种语言的语法？上下文无关文法

、、

我正在学习有限自动机和语法测试，我被这个问题卡住了：构造一个生成L的文法:l= {a^n b^m c^2n | n>=0，m>=0} 我如何构建生成这种语言的语法？文法上下文无关文法自动机

浏览 2提问于2016-06-17得票数 0

1回答

有办法在gensim的tfidf模型中设置min_df和max_df吗？

、

我正在使用gensim的tdidf模型，如下所示： from gensim import corpora, models dictionary = corpora.Dictionary(some_corpus) mapped_corpus = [dictionary.doc2bow(text) for text in some_corpus] tfidf = models.TfidfModel(mapped_corpus) 现在，我想应用阈值来删除出现得太频繁(max_df)和太频繁(min_df)的术语。我知道scikit的CountVectorizer

浏览 2提问于2018-06-14得票数 0

回答已采纳

1回答

在python ValueError中导入Gensim : numpy.ndarray大小更改，可能表示二进制不兼容。预期来自C头的88从PyObject得到80

、、

我只是简单地执行以下导入语句： from gensim.test.utils import common_texts from gensim.models import Word2Vec 但我一直收到以下错误 Traceback (most recent call last): File "/Users/user/PycharmProjects/COMP34711-NLP-CW2/main.py", line 15, in <module> from gensim.test.utils import common_texts File "/U

浏览 49提问于2021-12-15得票数 0

1回答

Elki的评价

、、

我知道ELKI目前只包括无监督的孤立点检测方法，因此Elki不将输入数据划分为训练集和测试集。但是，我已经看到，评价是在少数族裔阶级的时候就能做到的。我想知道： elki是否使用所有输入数据进行评估？运行时是考虑评估还是只考虑培训时间？评估是否考虑了离群值的分数来估计假阳性率和真阳性率，以评估排名？例如，在LOF算法中，假设普通类中的实例具有较高的LOF分数。在评估中，它是假阳性还是真阳性？谢谢!

浏览 2提问于2016-02-02得票数 0

回答已采纳

1回答

如何在Solr函数查询中排除等于0的分数并保持实际分数？

、

我的目标是对相似的项目进行四舍五入，然后按另一个字段排序(让我们以价格为例)。我可以通过下面的查询来完成这个任务：价格搜索术语})，100))&fl=score，price&sort=score%20desc，/select?defType=func&q=rint(product(query({!v=the 但是，此查询将返回在Solr中索引的所有文档。如何筛选此查询以排除分数为0的项目？我已经尝试将{!frange l=1}添加到查询中，但效果很好...但它使所有的分数都等于1。这显然不好，因为我需要首先显示最相关的结果。提前感谢您的帮助。亚历克斯

浏览 0提问于2015-04-09得票数 0

2回答

一致性评分(u_mass) -18是好还是坏？

、、、、

我读了这个问题()，发现一致性分数( u_mass )从-14分到14分。但是当我做实验时，我得到了一个分数-18分( u_mass )和0.67分( c_v )。我想知道为什么我的u_mass分数超出了范围(-14，14)？更新:我使用gensim库并扫描了2到50个主题的数量。对于u_mass来说，它从0开始到最低的负值，然后稍微回过头来，就像c_v的朝下版本一样。

浏览 26提问于2020-05-26得票数 3

回答已采纳

1回答

计算文档集合和关键字之间的余弦相似度(例如“innovate”"fast")

、、

我有一套描述企业文化不同维度的文档。标记化的示例如下： sent1=['innovative','culture','fast','moving','company'] sent2=['manager','micromanage','all','time'] sent3=['slow','response','customer'] 我已经将Glove和Gensim w2v应用到了上述文档中。我想识别与一

浏览 14提问于2020-12-17得票数 0

2回答

基于预定义字典和词索引数据的Gensim word2vec

、、、

我需要使用gensim在tweet上训练一个word2vec表示。与我在gensim上看到的大多数教程和代码不同，我的数据不是原始的，而是已经进行了预处理。我在一个包含65k个单词的文本文档中有一本字典。一个“未知”的令牌和一个EOL标记)和tweet被保存为一个带有索引的numpy矩阵到本字典中。以下是数据格式的一个简单示例： dict.txt you love this code tweet (5条未知，6条为EOL) [[0, 1, 2, 3, 6], [3, 5, 5, 1, 6], [0, 1, 3, 6, 6]] 我不知道该如何处理索引表示。一种简单的方法是将索引列表转换为字符

浏览 0提问于2016-03-01得票数 11

回答已采纳

1回答

Python3，word2vec，我如何在我的模型中获得关于“价格”的相似等级列表？

、、、、

在gensim的价格python中，我想获得“word2vec”的余弦相似度列表。我读了gensim word2vec的文档，但文档中描述了most_similar和n_similarity函数)() 我想要价格和所有其他价格之间的相似性的完整列表。

浏览 7提问于2019-09-17得票数 0

回答已采纳

1回答

如何在gensim中获取给定主题的文档向量

、、、

我有大约9000个文档，我正在使用Gensim的doc2vec嵌入我的文档。我的代码如下： from gensim.models import doc2vec from collections import namedtuple dataset = json.load(open(input_file)) docs = [] analyzedDocument = namedtuple('AnalyzedDocument', 'words tags') for description in dataset: tags = [description[0]

浏览 15提问于2019-07-20得票数 0

回答已采纳

2回答

如何在不获得Word2vec的情况下用Gensim加载AttributeError？

、、、

我是新来的Gensim，我正在尝试加载我的给定(预训练) Word2vec模型.我有两个文件: xxxx.model.wv和更大的xxxx.model.wv.syn0.npy。当我调用以下行时： gensim.models.Word2Vec.load('xxxx.model.wv') 我得到以下错误： AttributeError: 'EuclideanKeyedVectors' object has no attribute 'negative' 如何解决这个错误？

浏览 0提问于2018-03-22得票数 2

回答已采纳

1回答

排序文档主题矩阵gensim LDA

、、、、

我有一个关于使用gensim的LDA的语料库，我试图得到一个矩阵，其中行是文档，列是主题。我运行的代码行如下，但在输出中，分数不对应于列。我想改变这一点，以便在0列中，您只有主题0的概率，同样地，在1，2，等等列中。有人知道怎么做吗？ DocTopMat = pd.DataFrame(model.get_document_topics(corpus),columns=[i for i in range(model.num_topics)])

浏览 10提问于2022-09-30得票数 0

回答已采纳

3回答

Python Gensim:如何使用LDA模型计算文档相似度？

、、、

我有一个经过训练的LDA模型，我想从我训练模型的语料库中计算两个文档之间的相似度分数。在学习了所有的Gensim教程和函数后，我仍然无法理解它。有人能给我个提示吗？谢谢!

浏览 1提问于2014-03-16得票数 33

回答已采纳

4回答

如何在具有gensim的语料库中过滤出tf-idf低的单词？

、、

我正在使用gensim来完成一些NLP任务。我已经从dictionary.doc2bow创建了一个语料库，其中dictionary是corpora.Dictionary的对象。现在，我想在运行LDA模型之前过滤掉tf-idf值较低的术语。我查看了语料库类的，但找不到访问术语的方法。有什么想法吗？谢谢。

浏览 0提问于2014-07-11得票数 8

2回答

如何在Gensim中打印文档明智的主题？

、、、、

我使用LDA和gensim进行主题建模。我的数据有23个文档，我希望每个文档都有单独的主题/单词，但是gensim给出了整个文档集的主题。如何为个人文档获取？ dictionary = corpora.Dictionary(doc_clean) # Converting list of documents (corpus) into Document Term Matrix using #dictionary prepared above. corpus = [dictionary.doc2bow(doc) for doc in doc_clean] # Creating the o

浏览 0提问于2019-08-12得票数 1

回答已采纳