前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >文本挖掘(四)python电影评论情感分类模型 -- 基于keras的全连接神经网络

文本挖掘(四)python电影评论情感分类模型 -- 基于keras的全连接神经网络

作者头像
forxtz
发布于 2021-04-01 01:54:37
发布于 2021-04-01 01:54:37
1.2K00
代码可运行
举报
文章被收录于专栏:源懒由码源懒由码
运行总次数:0
代码可运行

  简介:以keras书中案例,讲述构建电影评论情感分类模型。

  1.定义问题,收集数据

  使用消极、积极两类电影评论集,构建对情感分类模型,并后续用于预测。由于只有两类,因此是一个二分类模型。

  原始数据采用keras库中的imdb数据集,它包含来自互联网电影数据库(IMDB)的50 000 条严重两极分化的评论。数据集被分为用于训练的25 000 条评论与用于测试的25 000 条评论,训练集和测试集都包含50% 的正面评论和50% 的负面评论。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from keras.datasets import imdb

# 为什么限定为使用常见的前10000个词汇呢
# 防止词向量过大
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

  通过内置字典,还原回评论。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# word_index is a dictionary mapping words to an integer index
word_index = imdb.get_word_index()
# We reverse it, mapping integer indices to words
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
# We decode the review; note that our indices were offset by 3
# because 0, 1 and 2 are reserved indices for "padding", "start of sequence", and "unknown".
decoded_review = ' '.join([reverse_word_index.get(i-3, '?') for i in train_data[0]])

  原始数据集为整数序列,需要将列表转换为张量。将整数序列进行One-hot编码。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    # Create an all-zero matrix of shape (len(sequences), dimension)
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        # 切片赋值,传入数值列
        results[i, sequence] = 1.  # set specific indices of results[i] to 1s
    return results

# Our vectorized training data
x_train = vectorize_sequences(train_data)
# Our vectorized test data
x_test = vectorize_sequences(test_data)
x_test.shape  #(25000, 10000)

  转换标签数据类型

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Our vectorized labels
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

  2.构建网络

  使用全连接神经网络,中间层一般使用relu作为激活函数,二元分类末端使用sigmoid激活函数,最终输出为一个概率值。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

  3.定义优化器和损失函数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['binary_accuracy'])

  4.构建训练集和验证集

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
x_val = x_train[:10000]
partial_x_train = x_train[10000:]

y_val = y_train[:10000]
partial_y_train = y_train[10000:]

  5.开始训练,设置提前中断。在第8个回合停止了训练。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
path_checkpoint = "model_checkpoint.h5"
es_callback = keras.callbacks.EarlyStopping(monitor="val_loss", min_delta=0, patience=5)

# 使用ModelCheckpoint回调EarlyStopping函数定期保存检查点,并使用该回调函数在验证损失不再改善时中断训练。
modelckpt_callback = keras.callbacks.ModelCheckpoint(
    monitor="val_loss",
    filepath=path_checkpoint,
    verbose=1,
    save_weights_only=True,
    save_best_only=True,
)

history = model.fit(partial_x_train,
                    partial_y_train,
                    epochs=20,
                    batch_size=512,
                    validation_data=(x_val, y_val),
                   callbacks=[es_callback, modelckpt_callback])

  6.可视化输出模型训练效果

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
history_dict = history.history
history_dict.keys()

import matplotlib.pyplot as plt

acc = history.history['binary_accuracy']
val_acc = history.history['val_binary_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)

# "bo" is for "blue dot"
plt.plot(epochs, loss, 'bo', label='Training loss')
# b is for "solid blue line"
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

plt.show()
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
plt.clf()   # clear figure
acc_values = history_dict['binary_accuracy']
val_acc_values = history_dict['val_binary_accuracy']

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

plt.show()

  7.对测试集进行测试,最终效果精确度约为86%。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 评分 [0.38946253061294556, 0.8613200187683105]
results = model.evaluate(x_test, y_test)

小结:

  使用keras构建了简单的全连接神经网络情感分论模型。

下一步,构建更复杂的网络使模型更复杂已找到恰到拟合的界限。如,增加网络节点,层数(开头增加embedding层,中间增加隐藏层)。如用其他网络模型如LSTM适合处理序列问题。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-03-28 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
URL编码中的空格(编码以后变为+)
最近测试MM反映查看Log的时候会在有些请求中看到“+”,但是最后的结果却没有问题。当时感觉很诡异,走读代码定位发现是因为调用了java.net.URLEncoder的方法出现。后来研究发现才发现没这么简单啊。 总结:在HTML4.0.1中,基于RFC-1738标准,‘ ’在URL编码以后为 ‘+’,只有JS中由于基于RFC-2396标准,‘ ’在URL编码以后为‘%20’。 java代码: 代码片段: String tempString = "Hello, World!"; Stri
子勰
2018/05/22
3.2K0
Web开发须知:URL编码与解码
通常如果一样东西需要编码,说明这样东西并不适合传输。原因多种多样,如Size过大,包含隐私数据,对于Url来说,之所以要进行编码,是因为Url中有些字符会引起歧义。   例如,Url参数字符串中使用k
李海彬
2018/03/27
2.6K0
Web开发须知:URL编码与解码
Python url编码以及反编码
有时候通过浏览器传递过来的数据,经过url编码之后,就无法直接处理了。 需要进行反编码之后才能获取正确的结果。
Devops海洋的渔夫
2019/05/31
2.4K0
HTML网站URL编码和解码学习总结
HTML的URL字符编码概述 描述:URL 编码会将字符转换为可通过因特网传输的格式。
全栈工程师修炼指南
2020/10/23
2.5K1
HTML网站URL编码和解码学习总结
Javascript中的url编码与解码(详解)
摘要 本文主要针对URI编解码的相关问题做了介绍,对url编码中哪些字符需要编码、为什么需要编码做了详细的说明,并对比分析了Javascript中和编解码相关的几对函数escape / unescap
Angel_Kitty
2018/04/17
3K0
url编码和解码分析URLEncoder.encode和URLDecoder.decode
1.Get请求会将参数做默认的url解码操作,接口接收到的值是Get解码后的值。 2.可以将Get操作修改成Post操作,这样不会url解码。可以在接口中做url解码。 3.在多次传递参数的过程中,无需反复的编码(或者加了空格,加了换行),否则会将整个字符串错乱了。 (/ %2F %252F) (+ %2B %252B)
oktokeep
2024/10/09
1950
url编码和解码分析URLEncoder.encode和URLDecoder.decode
SSRF漏洞的URL编码
虽然知道什么是 URL编码 ,之前也学习过 SSRF漏洞 ,但是对 SSRF漏洞 中要进行一次URL编码或者两次URL编码甚是疑惑。 相信很多如我一般初学的小伙伴也有此疑惑。因此,特意学习探讨,于此总结。
cultureSun
2023/07/24
4120
SSRF漏洞的URL编码
PHP字符串的编码问题
大家都知道,不同字符编码,其在内存占用的字节数不一样。如 ASCII编码字符占用1个字节,UTF-8编码的中文字符是3字节,GBK为2个字节。
黄规速
2022/04/14
2.5K0
URL编码
URL 编码的规则:简单来说,如果需要对一个字符进行 URL 编码,首先需要判断该字符是否是 ASCII 字符:
真正的飞鱼
2023/02/04
2.8K0
APP热搜榜接口提供 --- 百度
目的地-Destination
2024/08/07
1490
APP热搜榜接口提供 --- 百度
关于URL编码
一般来说,URL只能使用英文字母、阿拉伯数字和某些标点符号,不能使用其他文字和符号。比如,世界上有英文字母的网址"http://www.abc.com",但是没有希腊字母的网址"http://www.aβγ.com"(读作阿尔法-贝塔-伽玛.com)。这是因为网络标准RFC 1738做了硬性规定:
ruanyf
2018/09/21
1.8K0
关于URL编码
Scrapy笔记三 自动多网页爬取-本wordpress博客所有文章
学习自http://blog.csdn.net/u012150179/article/details/34486677
十四君
2019/11/27
8050
经常要配置生物信息/深度学习电脑环境?一文少花90%看教程的时间
官网下载anaconda3,安装过程选择默认,记得勾选将anaconda放入环境变量。
依芙
2024/09/15
1321
Java 技术篇 - ServerSocket接收http的url请求中包含中文的处理方法,URLDecode与URLEncode,url解码与编码
效果图: 正常接收到中文的请求是这个样子的:%E6%AC%A2%E8%BF%8E%E6%9D%A5%E5%88%B0%E5%B0%8F%E8%93%9D%E6%9E%A3%E7%9A%84%E5%8D%9A%E5%AE%A2%EF%BC%81 通过解码方法: String url_new = java.net.URLDecoder.decode(url, "UTF-8"); 解码后恢复为中文: 欢迎来到小蓝枣的博客!
小蓝枣
2021/12/01
1.3K0
Java 技术篇 - ServerSocket接收http的url请求中包含中文的处理方法,URLDecode与URLEncode,url解码与编码
2018-8-26-各种URL编码傻傻分不清楚
进行web开发时总要遇到URL编码的问题,但是看看.Net提供的库函数真是难以区分。
黄腾霄
2020/06/10
8800
【答案&解析】Java工程师100道考题 | 超过60分的不到10%!
小傅哥,你的100道Java考题,我只考了16分,是不是没救了!给我个答案吧!那么鉴于不少小伙伴已经考完了,那么小傅哥就做一个考题解析,方便读者可以针对自己的问题进行补充学习。
小傅哥
2022/12/13
2.5K0
【答案&解析】Java工程师100道考题 | 超过60分的不到10%!
dk1.8和jdk17底层对url参数的编码不一样吗
当涉及到处理 URL 参数时,JDK 1.8和 JDK 17 在底层的编码方式上有一些差异。在本文中,我们将通过一个具体的案例来说明这些差异,并提供相应的代码示例。
GeekLiHua
2025/01/21
790
Java的URLEncoder.encode("需要编码的参数","UTF-8")
比较JS的encodeURIComponent函数和Java的URLEncoder.encode("需要编码的参数","UTF-8")函数: 对//中国/images/head_tripletown.png//!@#$%^&*()进行URL编码:
用户8983410
2021/10/08
1.4K0
iOS中URL编码那些事
在iOS程序中,访问一些HTTP/HTTPS的资源服务时,如果url中存在中文或者特殊字符时,会导致无法正常的访问到资源或服务,想要解决这个问题,需要对url进行编码。
freesan44
2018/09/05
2.7K0
非对称密钥沉思系列 收官篇:证书格式与编码的部分总结
数字1被ISO加在ASN的后边,是为了保持ASN的开放性,可以让以后功能更加强大的ASN被命名为ASN.2等,但至今也没有出现。
bowenerchen
2023/01/04
3.8K1
推荐阅读
相关推荐
URL编码中的空格(编码以后变为+)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文