本文是一个使用sklearn中的TruncatedSVD进行文本主题分析的简要demo。...我前面写的一篇数据分析 一文看评论里的中超风云 就用到了主题分析的一种:
下面介绍的形式是LSI(潜在语义分析),主题模型中较早也较为简单的一种,在sklearn库中以TruncatedSVD的形式实现...,使用非常方便,现在进入代码:
In [1]:
from sklearn.decomposition import TruncatedSVD # namely LSA/LSI(即潜在语义分析...)
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
使用TF-IDF对文本进行预处理,将文本化为向量的表示形式..., 'hopes', 'human', 'in', 'lie', 'middle', 'midst', 'night', 'of', 'our', 'the', 'when', 'where']
使用TruncatedSVD