如何实现TF-IDF评分，并对某些术语进行额外加权

TF-IDF（Term Frequency-Inverse Document Frequency）是一种常用于文本挖掘和信息检索的权重计算方法

1. 计算TF-IDF

TF-IDF由两部分组成：词频（TF）和逆文档频率（IDF）。

1.1 词频（TF）

词频表示一个词在文档中出现的频率。通常有以下几种计算方法：

绝对词频：词在文档中出现的次数。 [ TF(t, d) = \text{count}(t, d) ]
归一化词频：将词频除以文档的总词数。 [ TF(t, d) = \frac{\text{count}(t, d)}{\sum_{t' \in d} \text{count}(t', d)} ]

1.2 逆文档频率（IDF）

逆文档频率表示一个词在所有文档中的重要性。通常有以下几种计算方法：

标准IDF： [ IDF(t) = \log \left( \frac{N}{DF(t)} \right) ] 其中，(N) 是文档总数，(DF(t)) 是包含词 (t) 的文档数。
平滑IDF： [ IDF(t) = \log \left( \frac{N + 1}{DF(t) + 1} \right) ]

1.3 计算TF-IDF

将TF和IDF相乘得到TF-IDIDF： [ TF-IDF(t, d) = TF(t, d) \times IDF(t) ]

2. 对某些术语进行额外加权

为了对某些术语进行额外加权，可以在计算TF-IDF时引入一个权重因子。假设我们要对某些特定术语 (t') 进行额外加权，可以修改TF-IDF的计算公式如下：

[ TF-IDF'(t, d) = TF(t, d) \times IDF(t) \times W(t) ]

其中，(W(t)) 是权重因子。对于普通术语，(W(t) = 1)；对于需要额外加权的术语，(W(t) > 1)。

示例代码

以下是一个Python示例代码，展示了如何实现TF-IDF评分并对某些术语进行额外加权：

import math
from collections import Counter

def compute_tf(word_counts):
    total_words = sum(word_counts.values())
    return {word: count / total_words for word, count in word_counts.items()}

def compute_idf(documents):
    doc_count = len(documents)
    word_doc_counts = Counter()
    for doc in documents:
        word_doc_counts.update(set(doc))
    
    idf = {word: math.log((doc_count + 1) / (count + 1)) for word, count in word_doc_counts.items()}
    return idf

def compute_tfidf(documents, extra_weights=None):
    tfidf_scores = []
    idf = compute_idf(documents)
    
    for doc in documents:
        word_counts = Counter(doc)
        tf = compute_tf(word_counts)
        
        doc_tfidf = {}
        for word, count in word_counts.items():
            weight = extra_weights.get(word, 1) if extra_weights else 1
            doc_tfidf[word] = tf[word] * idf[word] * weight
        
        tfidf_scores.append(doc_t’tfidf)
    
    return tfidf_scores

# 示例文档
documents = [
    ["apple", "banana", "apple", "orange"],
    ["banana", "orange", "banana"],
    ["apple", "apple", "grape"]
]

# 额外加权术语
extra_weights = {
    "apple": 2,
    "grape": 1.5
}

tfidf_scores = compute_tfidf(documents, extra_weights)
for i, scores in enumerate(tfidf_scores):
    print(f"Document {i + 1} TF-IDF scores:")
    for word, score in scores.items():
        print(f"  {word}: {score:.4f}")

在这个示例中，我们定义了计算TF、IDF和TF-IDF的函数，并在计算TF-IDF时引入了额外加权因子。你可以根据需要调整额外加权术语及其权重。