在执行主题建模之前,我正在尝试删除停用词。我注意到一些否定词(not,nor,never,none等)通常被认为是停用词。例如,NLTK、spacy和sklearn在它们的停用词列表中包括"not“。然而,如果我们从下面的句子中删除" not“,它们就失去了重要的意义,这对于主题建模或情感分析是不准确的。
1).StackOverflow is not helpful => StackOverflow he
我有一些从我的数据集中删除停用词的代码,因为停用列表似乎也没有删除我想要的大部分单词,我希望将这些词添加到这个停用列表中,以便在这种情况下可以删除它们。我用来删除停用词的代码是:
word_list2 = [w.strip() for w in word_list if w.strip() not in nltk.corpus.stopwords.words
我只想从一个专栏中删除所有的英语停用词,而其他专栏则保持不变。这是我从nltk.corpus中提取停用词列表的代码: from nltk.corpus import stopwords
stopWordsListEng = stopwords.words("english") 但我想添加我能想到的其他停用词: according accordingly across act actually 我还没有想出如何将它添加到现有的停用词列
我发现一个使用FullText索引的查询有一个奇怪的问题。#1 SELECT * FROM tbparticipant where contains([FullTextQuery],'ALINE AND NASCIMENTO')ALINE DO NASCIMENTOALINE NASCIMENTO DE SOUZA但是这个查询
#2 SELECT * FROM tbparticipant where