我亲自学习神经网络的理论,并提出了一些问题。
在许多书籍和文献中,对于隐层的激活函数,使用了超切线函数.
书中提出了一个非常简单的理由,即tanh函数的线性组合可以描述几乎所有形状的函数,但都有给定的误差。
但是有个问题。
我在这里股票一直在想..。请帮我摆脱这种精神(.)陷阱!
发布于 2014-06-18 09:48:36
事实上,tanh和物流功能都可以使用。其思想是,您可以映射任何实数( -Inf,Inf )到一个数字之间的-11或0 1之间的tanh和logistic分别。这样,可以证明这些函数的组合可以逼近任何非线性函数。关于对tanh的偏好,对于逻辑函数,第一个关于0是对称的,而第二个不是。这使得第二层更容易饱和后层,使训练更加困难。
发布于 2015-04-19 04:49:34
大多数情况下,tanh比sigmoid函数和logistic函数收敛速度快,并且精度更高。然而,最近由辛顿[2]提出的校正线性单元( ReLU )表明,ReLU训练比tanh [3]快6倍,可以达到相同的训练误差。您可以参考[4]来查看ReLU带来的好处。
2年以上机械学习经验。我想分享一些策略,使用最多的文件和我的经验,计算机视觉。
标准化输入是非常重要的
正火井可获得较好的性能,收敛速度快。在大多数情况下,我们会减去均值,使输入均值为零,以防止权值变化,从而使[5] .Recently google在训练深度学习时也会出现内部协变量转移的现象,并提出了批量归一化[6],以使每个向量具有零均值和单位方差。
更多数据更准确
更多的训练数据可以很好地扩展特征空间,防止过度拟合。在计算机视觉中,如果训练数据不够,大多数用于增加训练数据集的技能是数据论证和综合训练数据。
选择一个良好的激活功能可以更好、更有效地进行培训。
ReLU的非线性激活效果更好,并且在深度学习和多层编程方面表现出了最先进的效果.此外,它还具有实现简单、后向传播计算成本低等优点,可以有效地训练出更深层次的神经网络。然而,当单元为零活动时,ReLU将得到零梯度,并且不进行训练。因此,提出了一些改进的ReLU,如漏ReLU和噪声ReLU,最流行的方法是微软提出的PReLU [7],它推广了传统的累加单元。
其他
发布于 2014-06-19 08:45:02
要与已经存在的答案相提并论,对0附近对称的偏好不仅仅是美学问题。LeCun等人的一篇优秀的文本"高效BackProp“非常详细地说明了为什么输入、输出和隐藏层的平均值为0,标准偏差为1是一个好主意。
https://stackoverflow.com/questions/24282121
复制相似问题