至于阻尼系数,是为了防止意外发生,如存在一些出链为0,也就是那些不链接任何其他网页的网, 也称为孤立网页。他们的PR值被设定到了一个最小值。
PageRank需要使用上面的公式多次迭代才能得到结果。...使用TextRank提取关键字
将原文本拆分为句子,在每个句子中过滤掉停用词(可选),并只保留指定词性的单词(可选)。由此可以得到句子的集合和单词的集合。
每个单词作为pagerank中的一个节点。...设定窗口大小为k,假设一个句子依次由下面的单词组成:
w1,w2,w3,w4,w5,…,wn
[w1,w2,…,wk]、[w2,w3,…,wk+1]、[w3,w4,…,wk+2]
等都是一个窗口。...在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。
基于上面构成图,可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。