由于sklearn不接受“文本表单”特性,所以我使用TfidfVectorizer对它们进行转换。### text vectorization--go from strings to lists of numbersclients1 google com,1,Falsetranslate google pl,1,F
我有一个大约300,000个唯一产品名称的数据框架,我正在尝试使用k均值将相似的名称聚在一起。我使用sklearn的tfidfvectorizer将名称矢量化,并将其转换为tf-idf矩阵。接下来,我在tf-idf矩阵上运行k均值,簇的数量从5到10。我引用的是#define vectorizer parameters
tfidf_vectorizer= T