在gensim中获得过滤后的二元文法的分数,可以通过以下步骤实现:
from gensim.models import Phrases
from gensim.models.phrases import Phraser
sentences = [['this', 'is', 'an', 'example', 'sentence'],
['another', 'sentence'],
['yet', 'another', 'example', 'sentence']]
bigram = Phrases(sentences, min_count=1, threshold=1)
其中,min_count参数指定了一个词组(二元文法)在语料中出现的最小次数,threshold参数指定了一个词组被当作二元文法的阈值。
bigram_phraser = Phraser(bigram)
filtered_sentences = [bigram_phraser[sentence] for sentence in sentences]
scores = []
for sentence in filtered_sentences:
score = 0
for word in sentence:
score += bigram.score([word])
scores.append(score)
在上述代码中,我们遍历过滤后的每个句子,然后遍历句子中的每个词语,使用bigram.score([word])
计算每个词语的二元文法分数,并将其累加到句子的分数中。
以上就是在gensim中获得过滤后的二元文法的分数的步骤。对于gensim库的更多详细信息和使用方法,可以参考腾讯云的相关产品介绍链接:gensim产品介绍。
领取专属 10元无门槛券
手把手带您无忧上云