02.改善深层神经网络：超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架

Michael阿明

发布于 2021-02-19 14:55:43

31300

代码可运行

文章被收录于专栏：Michael阿明学习之路Michael阿明学习之路

运行总次数：0

代码可运行

文章目录

参考：吴恩达视频课深度学习笔记

1. 调试处理

需要处理的参数：

在深度学习领域，常采用随机选点进行参数搜索（试验了更多的不同的超参数值）
由粗糙到精细的策略（集中计算资源到可能更优的小区域进行更密集的搜索）

2. 为超参数选择合适的范围

随机取值，并不是在范围内均匀取值。

使用对数标尺搜索超参数的方式会更合理

如果你使用均匀取值，应用从粗到细的搜索方法，取足够多的数值，最后也会得到不错的结果

3. 超参数调试的实践

在数据更新后，要重新评估超参数是否依然合适
没有计算资源，你可以试验一个或者少量的模型，不断的调试和观察效果
如果有计算资源，尽管试验不同参数的模型，最后选择一个最好的

4. 归一化网络的激活函数

Batch归一化 会使你的参数搜索问题变得很容易，使神经网络对超参数的选择更加稳定，超参数的范围会更加庞大，工作效果也很好，也会使你的训练更加容易

5. 将 Batch Norm 拟合进神经网络

前向传播：

计算完前一层的输出，先进行归一化，再计算激活函数值

6. Batch Norm 为什么奏效

原因1，使得输入特征、隐藏单元的值获得类似的范围，可以加速学习

原因2，在前面层输入值改变的情况下，BN 使得他们的均值和方差不变（更稳定），即使输入分布改变了一些，它会改变得更少。它减弱了前层参数的作用与后层参数的作用之间的联系，它使得网络每层都可以自己学习，稍稍独立于其它层，这有助于加速整个网络的学习

BN 有轻微的正则化效果，因为它在 mini-batch 上计算的均值和方差是有小的噪声，给隐藏单元添加了噪声，迫使后部单元不过分依赖任何一个隐藏单元（类似于 dropout）。因为添加的噪声很微小，所以正则化效果也很小

当增大 mini-batch size ，那么噪声会降低，因此正则化效果减弱

不要把 Batch归一化当作正则化把它当作将你归一化隐藏单元激活值并加速学习的方式

注意： Batch归一化一次只能处理一个mini-batch数据

7. 测试时的 Batch Norm

用指数加权平均来估算，这个平均数涵盖了所有 mini-batch（训练过程中计算 μ,σ2 的加权平均）
其他合理的方法也可以，比如对整个训练集进行估计 μ,σ2

使用 Batch归一化，你能够训练更深的网络，学习算法运行速度更快

8. Softmax 回归

可以用于多分类问题

Softmax 激活函数：

Softmax 激活函数需要将所有可能的输出归一化，需要输入一个向量，最后输出一个向量

9. 训练一个 Softmax 分类器

Softmax分类可以运用学习算法将输入分成不止两类，而是 C 个不同类别

10. 深度学习框架

Caffe/Caffe2 CNTK DL4J Keras Lasagne mxnet Paddlepaddle TensorFlow Theano Torch

选择标准：

便于编程，包括神经网络的开发和迭代，还包括为产品进行配置，为巨大的用户的实际使用考虑
运行速度，特别是训练大数据集时，一些框架能让你更高效地运行和训练神经网络
框架是否真的开放，不仅需要开源，而且需要良好的管理。

程序框架通过提供比数值线性代数库更高程度的抽象化，让你在开发深度学习应用时更加高效

11. TensorFlow

不安装TF，直接在Google Colab 编程

import numpy as np
import tensorflow as tf
import tensorflow.compat.v1 as tf # 防止1.0版本语句报错
tf.disable_v2_behavior()

# 定义参数w
w = tf.Variable(0, dtype=tf.float32)

# 定义损失函数 w**2-10w+25
# cost = tf.add(tf.add(w**2,tf.multiply(-10.,w)),25)
# 以下写法也是可以的
cost = w**2-10*w+25

# 0.01的学习率，目标是最小化损失函数
# train 为学习算法，使用梯度下降
train = tf.train.GradientDescentOptimizer(0.01).minimize(cost)

# 初始化
init = tf.global_variables_initializer()

# 开启 tf session
session = tf.Session()

# 初始化全局变量
session.run(init)

# 让tf评估一个变量
session.run(train) # 运行一次梯度下降
print(session.run(w)) # 打印w的现在的值 0.099999994

# 运行1000次梯度下降迭代
for i in range(1000):
    session.run(train)
print(session.run(w)) # 4.999988 很接近最优值5了

# 定义参数w
w = tf.Variable(0, dtype=tf.float32)

# 定义损失函数 w**2-10w+25
# cost = tf.add(tf.add(w**2,tf.multiply(-10.,w)),25)
# 以下写法也是可以的
# cost = w**2-10*w+25

# 上面是对固定的函数而言的
# 给上面的函数添加变化的3个系数(placeholder,稍后给你数据)
x = tf.placeholder(tf.float32, [3,1])
cost = x[0][0]*w**2 + x[1][0]*w + x[2][0]

# 定义系数 coeff 提供给 x
coefficient = np.array([[1.],[-10.],[25.]])

# 0.01的学习率，目标是最小化损失函数
# train 为学习算法，使用梯度下降
train = tf.train.GradientDescentOptimizer(0.01).minimize(cost)

# 初始化
init = tf.global_variables_initializer()

# 开启 tf session
session = tf.Session()

# 初始化全局变量
session.run(init)

# 让tf评估一个变量
session.run(train, feed_dict={x:coefficient}) # 运行一次梯度下降
print(session.run(w)) # 打印w的现在的值 0.099999994

# 运行1000次梯度下降迭代
for i in range(1000):
    session.run(train, feed_dict={x:coefficient})
print(session.run(w)) # 4.999988

TensorFlow中的placeholder是一个你之后会赋值的变量，这种方式便于把训练数据加入损失方程

运行训练迭代，用feed_dict来让x=coefficients。如果在做mini-batch梯度下降，在每次迭代时，需要插入不同的mini-batch，那么每次迭代，你就用feed_dict来喂入训练集的不同子集，把不同的mini-batch喂入损失函数需要数据的地方

TensorFlow如此强大，只需说明如何计算损失函数，它就能求导，用一两行代码就能运用梯度优化器，Adam优化器或其他优化器

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020/09/10 ，如有侵权请联系 cloudcommunity@tencent.com 删除

批量计算