句子相似度是指衡量两个句子在语义上的相近程度。它在自然语言处理(NLP)领域有着广泛的应用,如机器翻译、问答系统、文本摘要、情感分析等。
句子相似度的计算通常基于以下几个维度:
原因:
解决方法:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 示例句子
sentence1 = "我喜欢编程"
sentence2 = "我热爱编码"
# 向量化
vectorizer = TfidfVectorizer()
sentences = [sentence1, sentence2]
tfidf_matrix = vectorizer.fit_transform(sentences)
# 计算相似度
similarity_score = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])[0][0]
print(f"句子相似度: {similarity_score}")
通过上述方法,可以有效评估句子间的相似程度,并应用于各种实际场景中。
领取专属 10元无门槛券
手把手带您无忧上云