最近流行的激活函数

计算机视觉研究院

发布于 2018-04-17 19:25:53

1.1K00

代码可运行

文章被收录于专栏：计算机视觉战队计算机视觉战队

运行总次数：0

代码可运行

最近又看了点深度学习的东西，主要看了一些关于激活函数的内容，不知道算不算新颖，但是我想把自己阅读后的分享一下，请各位给予评价与指点，谢谢！

一般激活函数有如下一些性质：

非线性：当激活函数是线性的，一个两层的神经网络就可以基本上逼近所有的函数。但如果激活函数是恒等激活函数的时候，即f(x)=x，就不满足这个性质，而且如果MLP使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的；
可微性：当优化方法是基于梯度的时候，就体现了该性质；
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数；
f(x)≈x：当激活函数满足这个性质的时候，如果参数的初始化是随机的较小值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要详细地去设置初始值；
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的Learning Rate。

Sigmoid

常用的非线性的激活函数，数学形式如下：

Sigmoid 函数曾经被使用的很多，不过近年来，用它的人越来越少了。主要是因为它的缺点（输入较大或较小的时候，最后梯度会接近于0），最终导致网络学习困难。

所以，出现了另一种激活函数：ReLU ReLU

f(x)=max(0,x)

优点：使用 ReLU得到的SGD的收敛速度会比 sigmoid/tanh 快。这是因为它是linear，而且ReLU只需要一个阈值就可以得到激活值，不用去计算复杂的运算。

缺点：训练过程该函数不适应较大梯度输入，因为在参数更新以后，ReLU的神经元不会再有激活的功能，导致梯度永远都是零。

为了针对以上的缺点，又出现Leaky-ReLU、P-ReLU、R-ReLU三种拓展激活函数。

Leaky ReLUs 该函数用来解决ReLU的缺点，不同的是：

                         f(x)=αx，(x<0)
                         f(x)=x，(x>=0)

这里的 α 是一个很小的常数。这样，即修正了数据分布，又保留了一些负轴的值，使得负轴信息不会全部丢失。

Parametric ReLU 对于 Leaky ReLU 中的α，通常都是通过先验知识人工赋值，可以观察到损失函数对α的导数是可以求得的，可以将它作为一个参数进行训练。

《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》

该文章指出其不仅可以训练，而且效果特别好。公式非常简单，其中对α的导数：

原文使用了Parametric ReLU后，最终效果比不用提高了1.03%。

Randomized ReLU Randomized Leaky ReLU 是 Leaky ReLU 的随机版本（α 是随机选取）。它首次是在NDSB 比赛中被提出。

核心思想就是，在训练过程中，α是从一个高斯分布U(l,u)中随机出来的，然后再测试过程中进行修正（与Dropout的用法相似）。

数学表示如下：

在测试阶段，把训练过程中所有的αji取个平均值。NDSB冠军的α是从 U(3,8) 中随机出来的。在测试阶段，激活函数如下：

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-03-29，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

编程算法

本文分享自计算机视觉战队微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

深度学习

编程算法

登录后参与评论

0 条评论

热度

最近流行的激活函数

最近流行的激活函数

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐