一、什么是TF-IDF
TF-IDF(Term Frequency-Inverse Document Frequency
, 词频-逆文件频率).TF-IDF
是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。term frequency, TF
) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)TF
不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF
就是在完成这样的工作。二、假设命题
三、解决思路
(1)如何定义关键词
****在一篇文章中出现次数多的词
stop words
),表示对找到结果毫无帮助、必须过滤掉的词。****引入调整系数重新调整关键词权重
Inverse Document Frequency
,缩写为IDF
),它的大小与一个词的常见程度成反比。(2)算法细节
这里写图片描述
这里写图片描述 OR
这里写图片描述
这里写图片描述 如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。
TF-IDF
这里写图片描述
三、命题结论
可以看到,TF-IDF
与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF
值,然后按降序排列,取排在最前面的几个词。
TF-IDF
算法
四、命题论证
image
从上表可见,"蜜蜂"的TF-IDF
值最高,"养殖"其次,"中国"最低。(如果还计算"的"字的TF-IDF
,那将是一个极其接近0的值。)所以,如果只选择一个词,"蜜蜂"就是这篇文章的关键词。