前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【TensorFlow实战——笔记】第3章:TensorFlow第一步_TensorFlow实现Softmax Regression识别手写数字

【TensorFlow实战——笔记】第3章:TensorFlow第一步_TensorFlow实现Softmax Regression识别手写数字

作者头像
石瞳禅
发布2018-09-18 18:05:01
4400
发布2018-09-18 18:05:01
举报
文章被收录于专栏:石瞳禅的互联网实验室

3.2 TensorFlow实现Softmax Regression识别手写数字

MNIST(Mixed National Institute of Standards and Technology database)是一个非常简单的机器视觉数据集,它由几万张28像素x28像素的只包含灰度值的手写数字组成。在机器学习领域,对MNIST手写数字的识别就像是编程语言里实现Hello World例子一样,是入门知识。

首先加载MNIST数据,然后查看mnist这个数据集,可以看到训练集有55000个样本,测试集有10000个样本,同时验证集有5000个样本。每一个MNIST数据单元有两部分组成:一张包含手写数字的图片和一个对应的标签label。下面的程序中,mnist.train.images就是训练数据集的图片,mnist.train.labels就是训练数据集的标签。

代码语言:javascript
复制
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
print(mnist.train.images.shape, mnist.train.labels.shape)
print(mnist.test.images.shape, mnist.test.labels.shape)
print(mnist.validation.images.shape, mnist.validation.labels.shape)

每一张图片是28像素x28像素大小的灰度图片,图像中白色的像素可以用0表示,有颜色的地方根据颜色深浅有0到1之间取值。我们把整个28x28=784个点展开成1维向量。下面是一张手写的1来举例。

我们的训练数据的特征是一个55000x784的Tensor,第一个维度是图片的编号,第二个维度是图片中像素点的编号。

同时,训练的数据label是一个55000x10的Tensor,这里是对10个种类进行了one-hot编码,label是一个10维的向量,只有一个值为1,其余为0。比如数字0,对应的label就是[1,0,0,0,0,0,0,0,0,0]。

Softmax回归模型介绍

当我们处理多分类任务时,通常需要使用Softmax Regression模型。即使是卷积神经网络或循环神经网络,如果是分类模型,最后一层也同样是Softmax Regression。它的工作原理很简单,将可以判定为某类的特征相加,然后将这些特征转化成为判定是这一类的概率。比如某个像素具有很强的证据说明这张图片不属于该类,那么相应的权值为负数,相反如果这个像素拥有有利的证据支持这张图片属于这个类,那么权值是正数。下图蓝色代表正的权重,红色代表负的权重。

可以用这些特征写成如下公式:

  1. 计算第i类的特征:i代表第i类,j代表一张图片的第j个像素。bi是额外的偏置量(bias)
  2. 对所有特征计算softmax:就是都计算一个exp函数,然后再进行标准化(让所有类别输出的概率值和为1)
  3. 判定为第i类的概率

如果将整个计算过程可视化,用下图表示:

如果将上图的连线变成公式:

最后将元素相乘变成矩阵乘法:

上述矩阵运算表达写成公式的话,可以用下面这样简洁的一行表达。

用TensorFlow实现Softmax回归模型

代码语言:javascript
复制
import tensorflow as tf
# 不同的session之间的数据和运算相互独立
sess = tf.InteractiveSession()
# [None, 784]代表tensor的shape,None代表不限条数输入,784代表每条输入是一个784维的向量
x = tf.placeholder(tf.float32, [None, 784])
# 创建weights和biases
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
# 实现 y = softmax(Wx+b)
y = tf.nn.softmax(tf.matmul(x, W) + b)
# 定义损失函数cross-entropy
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
# 随机梯度下降SGD,并设置学习速率0.5,优化目标设定为cross-entropy,得到进行训练的操作train_step
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
# 使用全局参数初始化器,并执行run
tf.global_variables_initializer().run()
# 开始迭代执行训练操作train_step
for i in range(1000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    train_step.run({x: batch_xs, y_: batch_ys})

# 对模型准确率进行验证
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
# 统计全部样本预测的accuracy
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# 打印计算模型在测试集上的准确率
print(accuracy.eval({x: mnist.test.images, y_: mnist.test.labels}))

以上流程做的事情分为4部分:

  1. 定义算法公式,也就是神经网络forward时的计算
  2. 定义loss,选定优化器,并指定优化器优化loss
  3. 迭代地对数据进行训练
  4. 在测试集或验证集上对准确率进行评测
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3.2 TensorFlow实现Softmax Regression识别手写数字
    • Softmax回归模型介绍
      • 用TensorFlow实现Softmax回归模型
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档