文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么使用tanh作为MLP的激活功能？

问为什么使用tanh作为MLP的激活功能？
EN

Stack Overflow用户

提问于 2014-06-18 09:38:06

回答 7查看 28.5K关注 0票数 20

我亲自学习神经网络的理论，并提出了一些问题。

在许多书籍和文献中，对于隐层的激活函数，使用了超切线函数.

书中提出了一个非常简单的理由，即tanh函数的线性组合可以描述几乎所有形状的函数，但都有给定的误差。

但是有个问题。

这是使用tanh函数的真正原因吗？
如果是这样的话，这是使用tanh函数的唯一原因吗？
如果是这样的话，tanh函数是唯一能够做到这一点的函数吗？
如果没有，真正的原因是什么？

我在这里股票一直在想..。请帮我摆脱这种精神(.)陷阱！

machine-learning

neural-network

hyperbolic-function

回答 7

Stack Overflow用户

回答已采纳

发布于 2014-06-18 09:48:36

事实上，tanh和物流功能都可以使用。其思想是，您可以映射任何实数( -Inf，Inf )到一个数字之间的-11或0 1之间的tanh和logistic分别。这样，可以证明这些函数的组合可以逼近任何非线性函数。关于对tanh的偏好，对于逻辑函数，第一个关于0是对称的，而第二个不是。这使得第二层更容易饱和后层，使训练更加困难。

票数 14

Stack Overflow用户

发布于 2015-04-19 04:49:34

大多数情况下，tanh比sigmoid函数和logistic函数收敛速度快，并且精度更高。然而，最近由辛顿[2]提出的校正线性单元( ReLU )表明，ReLU训练比tanh [3]快6倍，可以达到相同的训练误差。您可以参考[4]来查看ReLU带来的好处。

2年以上机械学习经验。我想分享一些策略，使用最多的文件和我的经验，计算机视觉。

标准化输入是非常重要的

正火井可获得较好的性能，收敛速度快。在大多数情况下，我们会减去均值，使输入均值为零，以防止权值变化，从而使[5] .Recently google在训练深度学习时也会出现内部协变量转移的现象，并提出了批量归一化[6]，以使每个向量具有零均值和单位方差。

更多数据更准确

更多的训练数据可以很好地扩展特征空间，防止过度拟合。在计算机视觉中，如果训练数据不够，大多数用于增加训练数据集的技能是数据论证和综合训练数据。

选择一个良好的激活功能可以更好、更有效地进行培训。

ReLU的非线性激活效果更好，并且在深度学习和多层编程方面表现出了最先进的效果.此外，它还具有实现简单、后向传播计算成本低等优点，可以有效地训练出更深层次的神经网络。然而，当单元为零活动时，ReLU将得到零梯度，并且不进行训练。因此，提出了一些改进的ReLU，如漏ReLU和噪声ReLU，最流行的方法是微软提出的PReLU [7]，它推广了传统的累加单元。

其他

选择较大的初始学习率，如果它不会振荡或发散，以找到一个更好的全局最小值。
洗牌数据

票数 32

Stack Overflow用户

发布于 2014-06-19 08:45:02

要与已经存在的答案相提并论，对0附近对称的偏好不仅仅是美学问题。LeCun等人的一篇优秀的文本"高效BackProp“非常详细地说明了为什么输入、输出和隐藏层的平均值为0，标准偏差为1是一个好主意。

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24282121

复制

相似问题

问为什么使用tanh作为MLP的激活功能？
EN

回答 7

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么使用tanh作为MLP的激活功能？EN

回答 7

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么使用tanh作为MLP的激活功能？
EN