我一直在研究VADER,将其作为朴素贝叶斯的情感分析替代品。我知道如何使用NB模型检索一包单词;
from nltk import FreqDist
f = FreqDist(movie_reviews.words())
f.most_common()[:X]
有没有办法可以用VADER实现同样的输出呢?
我正在处理非常大的文档{新闻+文章},使用将自然语句建模为类,请看以下示例:
1- The System enables a user to shut down the server remotely ==> class 1
2- The Application allows a customer to to close the machine online ==> (must be also) class 1 , why ?
因为这两个句子有许多相似的同义词{System ~Application,enable~allow,user ~ customer,shut ~ clos
下面的代码分析了twitter的情绪:它是积极的、消极的还是中立的。然而,对于许多推文来说,这是相当不准确的,比如如果它包括“有人给了他一个中指索尔特”,我想训练程序认识到中指意味着不尊重,即使它在句子中包括敬礼这个词。
如有任何建议,我们将不胜感激。
导入重新导入tweepy从tweepy导入tweepy从textblob导入TextBlob
class TwitterClient(object):
'''
Generic Twitter Class for sentiment analysis.
'''
def
我有一个字典文本文件,其中包含世界城市的名称/关键字,这些关键字几乎都是3,00,000,但它也有许多不相关的关键字,例如this , is , on ,Over , Old , It , a , From etc .....
您可以看到,这些关键字不属于任何城市名称,因此如何删除所有不属于城市名称的关键字。
我不知道该怎么办。
有没有解决这个问题的解决方案??这里有一些样本数据
Japon
Bagpat
Jharda
Kilbrin
This
Großköllnbach
Sighetu Silvaniei
Schweich
Colinet
Leskovec
Trizay
Kilen
Le P
我正在尝试基于输入图像检索一组相似的图像。我用序列来设置数组元素。使用序列设置数组元素。顺便说一句,Python的OpenCV。我的策略是获取图像数据库的SURF特征,然后将其放入k-NN模型中,这样每当我使用SURF特征查询图像并查找相似的项集时,我就可以使用k-NN获得最近的邻居。问题是,我尝试在scikit-learn中训练k-NN模型,方法是放置SURF描述符,然后将其扁平化。然而,每当我尝试训练模型时,这个错误就一直出现。setting an array element with a sequence.setting an array element with a sequence.
我得到的数据大多是tweet或小评论(300-400个字符)。我使用了词袋模型并使用了NaiveBayes分类。现在我有很多错误分类的案例,都是下面提到的类型:
1.] He sucked on a lemon early morning to get rid of hangover.
2.] That movie sucked big time.
现在的问题是,在情感分类过程中,两个人都因为“糟糕”这个词而变得“消极”。
Sentiment Classification : 1.] Negative 2.] Negative
类似地,在文档分类过程中,由于单词"sucked“的存在,
用例如下所示:
假设我有一个句子(复习数据):The staffs were very kind and helpful. The room is ok for its price. There did not seem to be a heater in the room. So, a bit for our January trip.
现在,如果我想知道一个词的情感,例如room,那么我应该如何进行。
我使用bag of words模型设计了对给定句子的情感分析,但是从word (回顾数据)中确定给定的D3的情感对我来说还是比较新的。我在这里应该采取什么方法?
提供某种方法或任何链接就足够
我是自然语言处理的新手。我有一个博客标题列表,例如(不是真实数据,但你明白了):
docs = ["Places to Eat", "Places to Visit", "Top 10 Things to Do in Singapore"]...
大约有3000多个标题,我想在Python中使用LDA为每个标题生成主题。假设我已经使用nltk包清理和标记了这些文本,并删除了停用词,最后我将得到:
texts = [["places","eat"],["places","visit"]