开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

对于深度学习，使用激活relu，输出在训练期间变为NAN，而使用tanh是正常的

深度学习是一种机器学习的方法，通过构建多层神经网络模型来解决复杂的模式识别和预测问题。在深度学习中，激活函数是神经网络中的一个重要组成部分，用于引入非线性特性，增强模型的表达能力。

激活函数relu（Rectified Linear Unit）是一种常用的激活函数，它将负值设为0，正值保持不变。relu函数的优势在于计算简单，且在训练过程中能够有效地缓解梯度消失问题，加速模型的收敛速度。然而，当使用relu作为激活函数时，有时会出现输出变为NAN（Not a Number）的情况。

输出变为NAN的原因可能是由于梯度爆炸或梯度消失导致的数值溢出或下溢。当网络的权重参数过大或过小时，梯度在反向传播过程中可能会变得非常大或非常小，从而导致数值溢出或下溢，进而使得输出变为NAN。

相比之下，激活函数tanh（双曲正切函数）在训练期间通常是正常的。tanh函数将输入值映射到-1, 1的范围内，具有较好的非线性特性。它相对于relu函数来说，能够更好地处理负值的情况，因此在某些情况下，使用tanh作为激活函数可以避免输出变为NAN的问题。

对于解决输出变为NAN的问题，可以尝试以下几种方法：

使用更小的学习率：减小学习率可以降低梯度的大小，从而减少梯度爆炸或梯度消失的可能性。
使用梯度裁剪（Gradient Clipping）：通过限制梯度的范围，防止梯度爆炸的发生。
使用其他激活函数：尝试其他的激活函数，如Leaky ReLU、ELU等，以寻找更适合当前问题的激活函数。
检查数据预处理：确保输入数据的范围合理，避免数据过大或过小。
检查网络结构：检查网络结构是否合理，是否存在梯度消失或梯度爆炸的情况。

腾讯云提供了一系列与深度学习相关的产品和服务，包括云服务器、GPU实例、弹性GPU、深度学习平台等。您可以通过腾讯云官方网站了解更多相关产品和服务的详细信息：腾讯云深度学习产品。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

10个深度学习最常用的激活函数（原理及优缺点）

标准的计算机芯片电路可以看作是根据输入得到开（1）或关（0）输出的数字电路激活函数。因此，激活函数是确定神经网络输出的数学方程式，本文概述了深度学习中常见的十种激活函数及其优缺点。...ReLU 激活函数 ReLU 激活函数图像如上图所示，函数表达式如下： ReLU 函数是深度学习中较为流行的一种激活函数，相比于 sigmoid 函数和 tanh 函数，它具有如下优点：当输入为正时，...如果 a_i= 0，则 f 变为 ReLU 如果 a_i> 0，则 f 变为 leaky ReLU 如果 a_i 是可学习的参数，则 f 变为 PReLU PReLU 的优点如下：在负值域，PReLU...Softmax 激活函数的主要缺点是：在零点不可微；负输入的梯度为零，这意味着对于该区域的激活，权重不会在反向传播期间更新，因此会产生永不激活的死亡神经元。 8....Swish 激活函数的主要优点如下：「无界性」有助于防止慢速训练期间，梯度逐渐接近 0 并导致饱和；（同时，有界性也是有优势的，因为有界激活函数可以具有很强的正则化，并且较大的负输入问题也能解决）；

9361 0

深度学习最常用的10个激活函数！（数学原理+优缺点）

因此，激活函数是确定神经网络输出的数学方程式，本文概述了深度学习中常见的十种激活函数及其优缺点。首先我们来了解一下人工神经元的工作原理，大致如下：上述过程的数学可视化过程如下图所示： 1....ReLU 激活函数 ReLU 激活函数图像如上图所示，函数表达式如下： ReLU 函数是深度学习中较为流行的一种激活函数，相比于 sigmoid 函数和 tanh 函数，它具有如下优点：当输入为正时...如果 a_i= 0，则 f 变为 ReLU 如果 a_i> 0，则 f 变为 leaky ReLU 如果 a_i 是可学习的参数，则 f 变为 PReLU PReLU 的优点如下：在负值域，PReLU...Softmax 激活函数的主要缺点是：在零点不可微；负输入的梯度为零，这意味着对于该区域的激活，权重不会在反向传播期间更新，因此会产生永不激活的死亡神经元。 8....Swish 激活函数的主要优点如下：「无界性」有助于防止慢速训练期间，梯度逐渐接近 0 并导致饱和；（同时，有界性也是有优势的，因为有界激活函数可以具有很强的正则化，并且较大的负输入问题也能解决）；

7393 0

神经网络中的激活函数

注：吴恩达的Machine Learning课程在讲完线性回归和Logistic回归后，立即开讲神经网络，这和其它的机器学习课程有点不同，比如《机器学习实战》这本书就讲了很多算法而没有涉及神经网络。...图： Logistic Sigmoid函数使用sigmoid函数的主要原因在于其输出在0到1之间。因此，它特别适用于输出为概率预测的模型。...logistic sigmoid函数会导致神经网络在训练时卡住。 softmax函数是用于多类分类的更广义的逻辑激活函数。 2....ReLU（整流线性单位）激活函数 ReLU是目前世界上使用最多的激活函数，因为它几乎用于所有的卷积神经网络或深度学习中。...这就是为什么我们在机器学习和深度学习的几乎每个部分都会使用到微分。图：激活函数备忘单图：激活函数的微分

1.6K3 0

吾爱NLP(2)--解析深度学习中的激活函数

说到激活函数，就不能不提神经网络或者深度学习，从一个新手入门深度学习领域，我觉得首先需要理解三个基本的构成要素： ?...三要素我把理解激活函数作为深度学习入门的第一个构成要素，因为按照正常的逻辑，我们习惯从输入层--->隐藏层--->输出层的顺序来来理解模型，在****输入层--->隐藏层之间就需要用到了我们的激活函数...某电商评论区首先，要将句子向量化，可以使用word2vec词向量，也可以使用简单的一种方式是计算每句话的TFIDF特征值，TFIDF是使用词频除以文档频率来表示一个词的重要性权重，这种处理使得文字转变为向量...ReLU是目前深度学习模型中应用最火热的激活函数之一。为什么引入Relu呢？...relu进行激活，而是使用tanh作为替代，否则最终的loss很可能变成Nan；当选用高级激活函数时，建议的尝试顺序为ReLU->ELU->PReLU->MPELU，因为前两者没有超参数，而后两者需要自己调节参数使其更适应构建的网络结构

8492 0

深度学习领域最常用的10个激活函数，一文详解数学原理及优缺点

因此，激活函数是确定神经网络输出的数学方程式，本文概述了深度学习中常见的十种激活函数及其优缺点。首先我们来了解一下人工神经元的工作原理，大致如下： ? 上述过程的数学可视化过程如下图所示： ?...ReLU 函数是深度学习中较为流行的一种激活函数，相比于 sigmoid 函数和 tanh 函数，它具有如下优点：当输入为正时，不存在梯度饱和问题。计算速度快得多。...如果 a_i= 0，则 f 变为 ReLU 如果 a_i> 0，则 f 变为 leaky ReLU 如果 a_i 是可学习的参数，则 f 变为 PReLU PReLU 的优点如下：在负值域，PReLU...Softmax 激活函数的主要缺点是：在零点不可微；负输入的梯度为零，这意味着对于该区域的激活，权重不会在反向传播期间更新，因此会产生永不激活的死亡神经元。 8. Swish ?...Swish 激活函数的主要优点如下：「无界性」有助于防止慢速训练期间，梯度逐渐接近 0 并导致饱和；（同时，有界性也是有优势的，因为有界激活函数可以具有很强的正则化，并且较大的负输入问题也能解决）；

5861 0

激活函数 | 深度学习领域最常用的10个激活函数，详解数学原理及优缺点

因此，激活函数是确定神经网络输出的数学方程式，本文概述了深度学习中常见的十种激活函数及其优缺点。首先我们来了解一下人工神经元的工作原理，大致如下：上述过程的数学可视化过程如下图所示： 1....ReLU 激活函数 ReLU 激活函数图像如上图所示，函数表达式如下： ReLU 函数是深度学习中较为流行的一种激活函数，相比于 sigmoid 函数和 tanh 函数，它具有如下优点：当输入为正时，...如果 a_i= 0，则 f 变为 ReLU 如果 a_i> 0，则 f 变为 leaky ReLU 如果 a_i 是可学习的参数，则 f 变为 PReLU PReLU 的优点如下：在负值域，PReLU...Softmax 激活函数的主要缺点是：在零点不可微；负输入的梯度为零，这意味着对于该区域的激活，权重不会在反向传播期间更新，因此会产生永不激活的死亡神经元。 8....Swish 激活函数的主要优点如下：「无界性」有助于防止慢速训练期间，梯度逐渐接近 0 并导致饱和；（同时，有界性也是有优势的，因为有界激活函数可以具有很强的正则化，并且较大的负输入问题也能解决）；

33.6K4 7

【干货】深度学习最佳实践之权重初始化

【导读】深度学习中有很多简单的技巧能够使我们在训练模型的时候获得最佳实践，比如权重初始化、正则化、学习率等。对于深度学习初学者来说，这些技巧往往是非常有用的。...本文主要介绍深度学习中权重和偏差初始化以及如何选择激活函数的一些技巧，以及它们对于解决梯度消失和梯度爆炸的影响。...a）梯度消失 - 对于深度网络，对于任何激活函数，abs（dW）将随着反向传播期间而变得越来越小。在这种情况下，前面的层训练较慢。权重更新较小，导致收敛速度变慢。这使损失函数的优化变得缓慢。...在 leaky RELU的情况下，它们从不具有0梯度，因此训练会一直进行下去。 2.对于深度网络，我们可以使用启发式来根据非线性激活函数初始化权重。...最常见的是： a）对于RELU（z） - 我们将随机生成的W值乘以： ? b）对于tanh（z） - 启发式使用Xavier初始化。它与前一个类似，但k是1而不是2。 ?

1.1K8 0

【学术】浅谈神经网络中的梯度爆炸问题

在深度多层感知器网络中，梯度爆炸可能导致神经网络不稳定，使之不能从训练数据中学习，甚至是无法更新的NaN权重值。爆炸梯度会使学习变得不稳定。 – 第282页，深度学习，2016。...该模型是不稳定的，导致从两次更新之间的损失有巨大的变化。训练期间模型损失呈现NaN。如果你有这些类型的问题，你可以深入挖掘，看看你是否有梯度爆炸的问题。这些迹象，可以用来确认是否存在梯度爆炸。...训练期间，模型权重很快变得非常大。训练期间，模型权重转换为NaN值。训练期间，每个节点和层的误差梯度值始终高于1.0。如何修复爆炸梯度？解决爆炸梯度有很多方法。...2.使用RELU激活在深层多感知神经网络中，如果选择某些激活函数可能会出现梯度爆炸，如sigmoid函数和tanh函数。在这里使用ReLU激活函数减少梯度爆炸。...采用ReLU激活功能是对隐藏层最新最好的处理方法。 3.使用LSTM 在RNN中，由于这种类型的网络训练的固有不稳定性，会发生梯度爆炸，例如BPTT本质上是将循环网络换成深度多层的感知神经网络。

1.7K6 0

一文速学-让神经网络不再神秘，一天速学神经网络基础-激活函数（二）

然而，由于线性函数的叠加仍然是线性的，所以线性激活函数的叠加多层无法表达复杂的非线性模式，因此在深度神经网络中很少使用。...在二元分类问题中，Sigmoid 函数的输出可以被解释为样本属于某一类别的概率。可导性： Sigmoid 函数在其定义范围内是连续可导的，这对于使用梯度下降等优化算法进行模型训练是有帮助的。...ReLU 函数ReLU（Rectified Linear Activation）函数是深度学习中常用的非线性激活函数之一。...当输入接近正无穷时，Tanh 函数的输出趋近于 1，而当输入接近负无穷时，输出趋近于 -1。当输入接近零时，输出在 0 附近。...可导性： Softmax 函数是可导的，这对于使用梯度下降等优化算法进行模型训练是有帮助的。缺点数值稳定性：当输入值较大或较小时，Softmax 函数中的指数运算可能导致数值溢出或下溢。

4683 1

你有哪些deep learning（rnn、cnn）调参的经验？

---- 作者：萧瑟回答时间：2017-03-20 回答：训练技巧对深度学习来说是非常重要的，作为一门实验性质很强的科学，同样的网络结构使用不同的训练方法训练，结果可能会有很大的差异。...另一个例子是回归问题的预测，当时采用的 SGD 优化器，一开始学习率设定的 0.1，模型可以正常训练，只是训练速度有些慢，我试着将学习率调整到 0.3，希望可以加快训练速度，结果没迭代几轮 loss 就变成...1.激活函数选择：常用的激活函数有 relu、leaky-relu、sigmoid、tanh 等。...而对于中间隐层，则优先选择 relu 激活函数（relu 激活函数可以有效的解决 sigmoid 和 tanh 出现的梯度弥散问题，多次实验表明它会其他激活函数以更快的速度收敛）。...relu 激活函数初始化推荐使用 He normal，tanh 初始化推荐使用 Glorot normal，其中 Glorot normal 也称作 Xavier normal 初始化；数据预处理方法一般也就采用数据归一化即可

6722 0

深度学习与CV教程(6) | 神经网络训练技巧 (上)

通常使用 PCA 降维过的数据训练线性分类器和神经网络会达到非常好的性能效果，同时还能节省时间和存储器空间。有一问题是为什么使用协方差矩阵进行 SVD 分解而不是使用原 X 矩阵进行？...现在网络有了为了让网络达到较好的训练效果而去学习控制让 tanh 具有更高或更低饱和程度的能力。当使用随机优化时，我们不能基于整个训练集去计算。...，相反，使用训练期间激活数据的一个固定的经验均值，例如可以使用在训练期间的平均值作为估计。...比如一共有 1000个训练样本，每次 SGD 使用的小批量是 10 个样本，一次迭代指的是用这 10 个样本训练一次，而1000个样本都被使用过一次才是一次 epoch，即这 1000 个样本全部被训练过一次需要...比如很快就 nan（往往超过初始损失 3 倍就可以认为是 nan，就可以结束训练。），或者没有反应，然后进行调整。

8516 1

白话--长短期记忆(LSTM)的几个步骤，附代码！

，而输⼊⻔则控制当前时间步的输⼊Xt通过候选记忆细胞C˜t如何流⼊当前时间步的记忆细胞。...LSTM可以使用别的激活函数吗？关于激活函数的选取，在LSTM中，遗忘门、输入门和输出门使用Sigmoid函数作为激活函数；在生成候选记忆时，使用双曲正切函数Tanh作为激活函数。...值得注意的是，这两个激活函数都是饱和的，也就是说在输入达到一定值的情况下，输出就不会发生明显变化了。如果是用非饱和的激活函数，例如ReLU，那么将难以实现门控的效果。...在生成候选记忆时，使用Tanh函数，是因为其输出在−1～1之间，这与大多数场景下特征分布是0中心的吻合。此外，Tanh函数在输入为0附近相比Sigmoid函数有更大的梯度，通常使模型收敛更快。...参考文献《动手学–深度学习》 ---- 作者：@mantchs GitHub：https://github.com/NLP-LOVE/ML-NLP

1.3K3 0

机器学习深度学习中激活函数sigmoid relu tanh gelu等汇总整理

tanh和 sigmoid 相似，都属于饱和激活函数，区别在于输出值范围由 (0,1) 变为了 (-1,1)，可以把 tanh 函数看做是 sigmoid 向下平移和拉伸后的结果 [1620] tanh...ReLU 强制将x<0部分的输出置为0（置为0就是屏蔽该特征），可能会导致模型无法学习到有效特征，所以如果学习率设置的太大，就可能会导致网络的大部分神经元处于‘dead’状态，所以使用ReLU的网络，学习率不能设置太大...X)的累积分布Φ(x)是随着x的变化而变化的，当x增大，Φ(x)增大，当x减小，Φ(x)减小，即当x越小，在当前激活函数激活的情况下，越有可能激活结果为0，即此时神经元被dropout，而当x越大越有可能被保留...[p6ysy098fs.png] 使用技巧： 1.当在训练过程中使用gelus作为激活函数进行训练时，建议使用一个带有动量（momentum）的优化器，并将其作为深度学习网络的一种规范。...论文中提到在好几个深度学习任务中都优于Relu的效果。 [osuswfyh8y.png] Ref https://zhuanlan.zhihu.com/p/100175788 Gelu

2.6K4 1

常用激活函数理解

所谓梯度消失现象，可以对照 Sigmoid型函数的梯度图观察，会发现大于 5（或小于 −5）部分的梯度接近 0，这会导致在误差反向传播过程中导数处于该区域的误差很难甚至无法传递至前层，进而导致整个网络无法正常训练...修正线性单元（ReLU） ReLU是Nair和Hinton于 2010 年引入神经网络的，是截止目前为止深度卷积神经网络中最为常用的激活函数之一，其定义如下： ReLU(x) = max\{0,x\}...但是，ReLU函数也有自身缺陷，即在 x < 0 时，梯度便为 0。换句话说，对于 x 小于 0 的这部分卷积结果响应，它们一旦变为负值将再无法影响网络训练——这种现象被称作“死区"。...可以发现原始ReLU函数实际上是 Leaky ReLU 函数的一个特例，即α=0，但是实际项目中发现，由于Leaky ReLU中α为超参数，合适的值较难设定且很敏感，所以 Leaky ReLU 激活函数在实际使用中性能并不十分稳定...总结 1，建议首先使用目前最常用的 ReLU 激活函数，但需注意模型参数初始化和学习率的设置； 2，为了进一步提高模型精度，可尝试 Leaky ReLU、参数化 ReLU、随机化 ReLU 和 ELU。

1.4K2 0

资源 | 神经网络调试手册：从数据集与神经网络说起

使用均值中心化（mean centering）这将会从你的网络中移除噪音数据，提升训练性能，同时某些情况下有助于解决 NaN 问题。但是记住，如果你有时序数据，那么你应该使用批而不是全局中心化。...权重初始化如果你错误设置权重，由于零梯度，或者所有神经元的类似更新等，你的网络将变得无法训练。同样你也应该记住权重与学习率是成对的，因此高学习率和大权重可以导致 NaN 问题。...激活函数 ? 1. 梯度消失问题一些激活函数，比如 Sigmoid 和 Tanh 正在遭受饱和问题。在其极限时，它们的导数接近于零，这将会消除梯度和学习过程。因此检查不同的函数比较好。...现在标准的激活函数是 ReLU。同样这一问题也出现在一个非常深度或者循环的网络中，比如你有 150 层，所有的激活值是 0.9，那么 0.9¹⁵⁰ = 0,000000137。...不是零均值的激活值比如 Sigmoid、ReLU 函数就不是零均值的。这意味着训练期间所有你的梯度将全部是正或负，并会引发学习问题。这就是为什么我们使用零均值的输入数据。 3.

65714 0

神经网络中的激活函数具体是什么？为什么ReLu要好过于tanh和sigmoid function?

Sigmoid函数是深度学习领域开始时使用频率最高的activation function。它是便于求导的平滑函数，其导数为，这是优点。...深度学习往往需要大量时间来处理大量数据，模型的收敛速度是尤为重要的。...所以，总体上来讲，训练深度学习网络尽量使用zero-centered数据 (可以经过数据预处理实现) 和zero-centered输出。 ?...幂运算相对耗时相对于前两项，这其实并不是一个大问题，我们目前是具备相应计算能力的，但面对深度学习中庞大的计算量，最好是能省则省 :-)。...小结建议使用ReLU函数，但是要注意初始化和learning rate的设置；可以尝试使用Leaky ReLU或ELU函数；不建议使用tanh，尤其是sigmoid函数。

2.9K10 0

【干货】神经网络初始化trick：大神何凯明教你如何训练网络！

为什么要初始化权重权重初始化的目的是防止层激活输出在正向通过深度神经网络的过程中爆炸或消失。...图片来源：Kanchan Sarkar的博客。为了看看会发生什么，让我们在我们假设的网络层中使用ReLU激活而不是tanh，并观察其输出的预期标准偏差。 ?...正如我们之前所展示的那样，保持层激活的标准偏差大约为1将允许我们在深度神经网络中堆叠更多层而不会出现梯度爆炸或消失。...顺便提一下，当他们训练使用ReLU的更深层网络时，He等。人。发现使用Xavier初始化的30层CNN完全停止并且根本没有学习。然而，当根据上面概述的三步程序初始化相同的网络时，它获得了更大的收敛。...Kaiming init支持30层 CNN的融合对我们来说，故事的寓意是，我们从头开始训练的任何网络，特别是计算机视觉应用，几乎肯定会包含ReLU激活功能，并且深层次。

2.7K2 0

5分钟了解神经网络激活函数

非线性激活函数的一个特殊属性是它们是可微的，否则它们在深度神经网络的反向传播期间将无法工作。深度神经网络是具有多个隐藏层和一个输出层的神经网络。了解多个隐藏层和输出层的构成是我们的目标。...双曲正切函数（Tanh）双曲正切函数是深度学习中使用的另一种激活函数，并且在深度学习应用程序中具有某些变体。...整流线性单元（ReLU）功能整流线性单元（ReLU）激活函数由Nair和Hinton在2010提出，从那时起，它一直是深度学习应用程序中使用最广泛的激活函数，具有迄今为止最先进的结果。...ReLU是一种快速学习的激活函数，已被证明是最成功且使用最广泛的函数。与Sigmoid和tanh激活函数相比，它在深度学习中具有更好的性能和通用性。...问题是哪个更好用? 正如我们在深度学习应用程序中使用激活函数所观察到的那样，较新的激活函数似乎要优于诸如ReLU之类的较早的激活功能，但即使是最新的深度学习架构也都依赖ReLU功能。

8992 0

入门 | 从感知机到深度神经网络，带你入坑深度学习

目前，结合反向传播使用梯度下降算法是训练一个多层神经网络的有效方法之一（我们稍后会简短的介绍一下）。反向传播的必要条件是使用的激活函数必须可微。...图 6：tanh 函数图如前面提及的，tanh 激活函数有点像 sigmoid 函数。非线性且输出在某一范围，此处为 (-1, 1)。不必意外，它也有跟 sigmoid 一样的缺点。...除此以外，Relu 还因避免了梯度消失问题而闻名。然而，ReLU 有一个致命缺点，叫「ReLU 坏死」。ReLu 坏死是指网络中的神经元由于无法在正向传播中起作用而永久死亡的现象。...我们训练深度网络时最常遇到的就是梯度消失问题：一个非常深的网络通常会发生某个梯度迅速变为零的状况，因此使得梯度下降非常缓慢。...激活函数是神经网络中的重要一环，你必须理解。目前反向传播搭配梯度下降法是训练神经网络的最佳方案。使用更多的隐藏层并不一定能提高我们的模型的表现。事实上，深度网络饱受梯度消失之苦。 ?

5976 0

机器学习测试笔记（15）——神经网络

后来出现了多层感知器（Multilayer Preceptron，MLP）现在的深度学习，都属于神经网络的范畴。人工智能，机器学习，深度学习之间的关系如下图所示。 ?...通过上图，可以看到tanh把值域控制在(-1,1)之间; relu将0的部分。 2....注意：默认解算器“adam”在相对较大的数据集(包含数千个训练样本或更多)方面在训练时间和验证分数方面都能很好地工作。但是,对于小型数据集,“lbfgs”可以更快地收敛并且表现更好。...activation：包括'identity','logistic','tanh','relu',默认'relu' 隐藏层的激活函数。...训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员.

4793 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭