首先,从传统的特征提取方面对比了BOW、TF-IDF、N-Gram技术,并使用不同的机器学习算法构建了不同的子模型,然后又采用了Stacking模型融合技术对短评情感进行了进一步的探索,最后进阶到深度学习,构建神经网络模型进行文本分类。全文各个模型并不是参数最优,但也有一定的参考价值,因为针对不同的数据集,模型的预测结果都是不尽相同的。言归正传,下面一起来看看电影短评情感分析的结果吧!
者将从以下几个大方向构建电影短评情感分析模型:
笔者首先对短评数据进行了分词,然后算出每个短评的bow特征,并在此基础上训练了LR、MMB、RF、GBDT四个模型,当然各个模型都没有进行很深程度的调优。
data目录里面的数据,只有2万行,
本项目为电影短评情感分析项目,代码文件说明:
模型名称 | Accuracy | Precision | Recall | F1-Score | AUC |
---|---|---|---|---|---|
word-level-tfidf-LR | 0.872 | 0.87 | 0.87 | 0.87 | 0.9438 |
word-level-tfidf-MNB | 0.862 | 0.86 | 0.86 | 0.86 | 0.9394 |
word-level-tfidf-RF | 0.8219 | 0.82 | 0.82 | 0.82 | 0.8930 |
word-level-tfidf-GBDT | 0.723 | 0.72 | 0.72 | 0.71 | 0.8183 |
word-ngram-tfidf-LR | 0.8724 | 0.87 | 0.87 | 0.87 | 0.9439 |
word-ngram-tfidf-MNB | 0.8642 | 0.86 | 0.86 | 0.86 | 0.9399 |
word-ngram-tfidf-RF | 0.8212 | 0.82 | 0.82 | 0.82 | 0.8925 |
word-ngram-tfidf-GBDT | 0.7630 | 0.77 | 0.76 | 0.76 | 0.8588 |
char-ngram-tfidf-LR | 0.8866 | 0.89 | 0.89 | 0.89 | 0.9552 |
char-ngram-tfidf-MNB | 0.8657 | 0.87 | 0.87 | 0.87 | 0.9410 |
char-ngram-tfidf-RF | 0.8276 | 0.83 | 0.83 | 0.83 | 0.9009 |
char-ngram-tfidf-GBDT | 0.7686 | 0.78 | 0.77 | 0.77 | 0.8613 |