MNIST(Mixed National Institute of Standards and Technology database)是一个非常简单的机器视觉数据集,它由几万张28像素x28像素的只包含灰度值的手写数字组成。在机器学习领域,对MNIST手写数字的识别就像是编程语言里实现Hello World例子一样,是入门知识。
首先加载MNIST数据,然后查看mnist这个数据集,可以看到训练集有55000个样本,测试集有10000个样本,同时验证集有5000个样本。每一个MNIST数据单元有两部分组成:一张包含手写数字的图片和一个对应的标签label。下面的程序中,mnist.train.images
就是训练数据集的图片,mnist.train.labels
就是训练数据集的标签。
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
print(mnist.train.images.shape, mnist.train.labels.shape)
print(mnist.test.images.shape, mnist.test.labels.shape)
print(mnist.validation.images.shape, mnist.validation.labels.shape)
每一张图片是28像素x28像素大小的灰度图片,图像中白色的像素可以用0表示,有颜色的地方根据颜色深浅有0到1之间取值。我们把整个28x28=784个点展开成1维向量。下面是一张手写的1来举例。
我们的训练数据的特征是一个55000x784的Tensor,第一个维度是图片的编号,第二个维度是图片中像素点的编号。
同时,训练的数据label是一个55000x10的Tensor,这里是对10个种类进行了one-hot编码,label是一个10维的向量,只有一个值为1,其余为0。比如数字0,对应的label就是[1,0,0,0,0,0,0,0,0,0]。
当我们处理多分类任务时,通常需要使用Softmax Regression模型。即使是卷积神经网络或循环神经网络,如果是分类模型,最后一层也同样是Softmax Regression。它的工作原理很简单,将可以判定为某类的特征相加,然后将这些特征转化成为判定是这一类的概率。比如某个像素具有很强的证据说明这张图片不属于该类,那么相应的权值为负数,相反如果这个像素拥有有利的证据支持这张图片属于这个类,那么权值是正数。下图蓝色代表正的权重,红色代表负的权重。
可以用这些特征写成如下公式:
如果将整个计算过程可视化,用下图表示:
如果将上图的连线变成公式:
最后将元素相乘变成矩阵乘法:
上述矩阵运算表达写成公式的话,可以用下面这样简洁的一行表达。
import tensorflow as tf
# 不同的session之间的数据和运算相互独立
sess = tf.InteractiveSession()
# [None, 784]代表tensor的shape,None代表不限条数输入,784代表每条输入是一个784维的向量
x = tf.placeholder(tf.float32, [None, 784])
# 创建weights和biases
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
# 实现 y = softmax(Wx+b)
y = tf.nn.softmax(tf.matmul(x, W) + b)
# 定义损失函数cross-entropy
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
# 随机梯度下降SGD,并设置学习速率0.5,优化目标设定为cross-entropy,得到进行训练的操作train_step
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
# 使用全局参数初始化器,并执行run
tf.global_variables_initializer().run()
# 开始迭代执行训练操作train_step
for i in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
train_step.run({x: batch_xs, y_: batch_ys})
# 对模型准确率进行验证
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
# 统计全部样本预测的accuracy
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# 打印计算模型在测试集上的准确率
print(accuracy.eval({x: mnist.test.images, y_: mnist.test.labels}))
以上流程做的事情分为4部分: