首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么使用tanh作为MLP的激活功能?

为什么使用tanh作为MLP的激活功能?
EN

Stack Overflow用户
提问于 2014-06-18 09:38:06
回答 7查看 28.5K关注 0票数 20

我亲自学习神经网络的理论,并提出了一些问题。

在许多书籍和文献中,对于隐层的激活函数,使用了超切线函数.

书中提出了一个非常简单的理由,即tanh函数的线性组合可以描述几乎所有形状的函数,但都有给定的误差。

但是有个问题。

  1. 这是使用tanh函数的真正原因吗?
  2. 如果是这样的话,这是使用tanh函数的唯一原因吗?
  3. 如果是这样的话,tanh函数是唯一能够做到这一点的函数吗?
  4. 如果没有,真正的原因是什么?

我在这里股票一直在想..。请帮我摆脱这种精神(.)陷阱!

EN

回答 7

Stack Overflow用户

回答已采纳

发布于 2014-06-18 09:48:36

事实上,tanh和物流功能都可以使用。其思想是,您可以映射任何实数( -Inf,Inf )到一个数字之间的-11或0 1之间的tanh和logistic分别。这样,可以证明这些函数的组合可以逼近任何非线性函数。关于对tanh的偏好,对于逻辑函数,第一个关于0是对称的,而第二个不是。这使得第二层更容易饱和后层,使训练更加困难。

票数 14
EN

Stack Overflow用户

发布于 2015-04-19 04:49:34

大多数情况下,tanh比sigmoid函数和logistic函数收敛速度快,并且精度更高。然而,最近由辛顿[2]提出的校正线性单元( ReLU )表明,ReLU训练比tanh [3]快6倍,可以达到相同的训练误差。您可以参考[4]来查看ReLU带来的好处。

2年以上机械学习经验。我想分享一些策略,使用最多的文件和我的经验,计算机视觉。

标准化输入是非常重要的

正火井可获得较好的性能,收敛速度快。在大多数情况下,我们会减去均值,使输入均值为零,以防止权值变化,从而使[5] .Recently google在训练深度学习时也会出现内部协变量转移的现象,并提出了批量归一化[6],以使每个向量具有零均值和单位方差。

更多数据更准确

更多的训练数据可以很好地扩展特征空间,防止过度拟合。在计算机视觉中,如果训练数据不够,大多数用于增加训练数据集的技能是数据论证和综合训练数据。

选择一个良好的激活功能可以更好、更有效地进行培训。

ReLU的非线性激活效果更好,并且在深度学习和多层编程方面表现出了最先进的效果.此外,它还具有实现简单、后向传播计算成本低等优点,可以有效地训练出更深层次的神经网络。然而,当单元为零活动时,ReLU将得到零梯度,并且不进行训练。因此,提出了一些改进的ReLU,如漏ReLU和噪声ReLU,最流行的方法是微软提出的PReLU [7],它推广了传统的累加单元。

其他

  • 选择较大的初始学习率,如果它不会振荡或发散,以找到一个更好的全局最小值。
  • 洗牌数据
票数 32
EN

Stack Overflow用户

发布于 2014-06-19 08:45:02

要与已经存在的答案相提并论,对0附近对称的偏好不仅仅是美学问题。LeCun等人的一篇优秀的文本"高效BackProp“非常详细地说明了为什么输入、输出和隐藏层的平均值为0,标准偏差为1是一个好主意。

票数 9
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24282121

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档