在线性图层之后使用ReLu激活时，精度为什么会降低

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

因此，我开始使用Pytorch，并在FashionMNIST数据集上构建一个非常基本的CNN。我注意到在使用NN时出现了一些奇怪的行为，我不知道为什么会发生这种情况，在Forward函数中，当我在每个线性层之后使用Relu函数时，NN的准确性会降低。(device) optimizer = optim.Adam(model.parameters(

浏览 66提问于2019-09-22得票数 0

回答已采纳

1回答

即使我在每一层上使用ReLU，我的神经网络的输出也是负的

、、

我是深度学习的初学者，我正在使用PyTorch实现一个神经网络来训练一些化学数据。输入范围在(0到1)之间，没有负值，而且我在每个图层上都使用ReLu激活函数，因此我不希望在输出中看到负值我可以正确地预测7个特征中的6个，没有问题，只有我发现其中一个总是负值，我不知道为什么！= nn.ReLU() self.linear2 = nn.Linear(hidden_size

浏览 3提问于2021-09-28得票数 1

1回答

Keras NN中的恒定精度/损失

、、、

在预处理过程中，我去掉了Pid、name、ticket和Age列，并添加了相应的均值，替换了Fare和Age列中的空值。我有一个热门的编码性，Pclass(客舱)和登机港。最后，我使用了scikit的MinMaxScalar。model.add(Dense(128, activation="relu")) model.add(Dense(256, activation="relu"

浏览 0提问于2019-06-28得票数 0

1回答

为什么我们在使用辍学时要缩放输出？

、、、

来自： 为什么我们要保持预期的产出？如果我们使用ReLU激活，权重的线性缩放或

浏览 0提问于2018-12-09得票数 0

回答已采纳

1回答

为什么ReLU是一个非线性激活函数？

、、、、

据我所知，在深度神经网络中，我们在加权(w)和偏置(B) (z := w * X + b | a := g(z))之后使用激活函数(g)。因此，存在一个(g o z)的合成函数，激活函数使得我们的模型可以学习除线性函数以外的函数。我看到Sigmoid和Tanh激活函数使我们的模型非线性，但我发现ReLu (取0和z的最大值)可以使模型非线性. 假设每个Z都是正的，那么就好像没有激活

浏览 1提问于2018-09-21得票数 11

回答已采纳

1回答

指数线性单元(ELU)与$log(1+e^x)$作为深度学习的激活函数

、、

指数线性单元( ELU )似乎被用作深度学习的激活函数。但是它的图非常类似于log(1+e^x)的图。那么，为什么log(1+e^x)没有被用作激活函数而不是ELU呢？

浏览 0提问于2019-06-09得票数 5

回答已采纳

2回答

在keras model.predict中获取所有相同的值

、

我使用keras LSTM层，并且我的输出预测彼此非常相似。它们之间的差异不超过2个单位。下面是我的代码：model.add(Dense(units我使用relu和sigmoid函数作为我的激活函数。

浏览 0提问于2018-07-25得票数 3

2回答

我应该如何提高训练和验证的准确性/损失？

、、、

Sequential() classifier.add(Conv2D(32, (3, 3), input_shape = (32, 32, 3), activation = 'reluPoolingc

浏览 0提问于2020-09-20得票数 1

2回答

神经网络:为什么我们需要一个激活函数？

、、

我试着在没有任何激活函数的情况下运行一个简单的神经网络，网络不收敛。我正在使用MSE成本函数进行MNIST分类。但是，如果我对隐藏层应用校正的线性激活函数(output = max(0，x)，其中x是加权和)，那么它会很好地收敛。 为什么消除前一层的负输出有助于学习？

浏览 1提问于2016-04-01得票数 1

3回答

为什么使用ReLU作为激活函数？

、、、

在神经网络中，利用激活函数在w * x + b型线性输出中引入非线性。我了解ReLU的优点，即在反向传播过程中避免死神经元。但是，如果ReLU的输出是线性的，我无法理解为什么它被用作激活函数？如果不引入非线性，激活函数的全部意义就会被击败吗？

浏览 0提问于2018-01-10得票数 44

回答已采纳

1回答

当输入大于0时，ReLU函数的微分为1；当输入小于或等于0时，微分为0。在反向传播过程中，它根本不改变d(Error)/d(权重)的值。要么梯度乘以1，要么乘以0。这意味着它只会帮助丢弃负面的输入。而不是使用ReLU，如果我们使用辍学，是不是应该是几乎相同的？我们利用非线性激活函数来实现非线性。但它不是也是线性变换吗。假设一个训练数据集，其中所有输入都是正的，而在初始模型中，所有的权重都是

浏览 0提问于2023-03-29得票数 0

1回答

为什么线性变换可以提高高维数据的分类精度和效率？

、、、、

当属性数n较大且数据集X有噪声时，分类变得更加复杂并且分类精度降低。解决这个问题的一种方法是使用线性变换，即对Y=XR和p<=n进行分类，其中R是n×p矩阵，我想知道线性变换如何简化分类？当X有噪声时，如果我们对变换后的数据Y进行分类，为什么分类精度会增加？

浏览 3提问于2014-04-24得票数 0

1回答

我有一个关于用A序列翻译的问题。

、、

我想知道他们在卢公和巴丹瑙之间用的是哪种技术？另一个问题，为什么他们要在GRU单元之前应用Relu层？最后，图中的红色框被称为上下文向量，对吗？

浏览 1提问于2019-08-09得票数 0

回答已采纳

3回答

在标准CNN上应用批标准化的地方

、、、、

我有以下架构：Relu1Conv2Pooling3FullyConnect2 我的问题是，在哪里应用批处理标准化？在TensorFlow中做这件事的最佳功能是什么？

浏览 4提问于2017-11-06得票数 13

回答已采纳

7回答

为什么使用tanh作为MLP的激活功能？

、、

在许多书籍和文献中，对于隐层的激活函数，使用了超切线函数.但是有个问题。这是使用tanh函数的真正原因吗？如果没有，真正的原因是什么？

浏览 12提问于2014-06-18得票数 20

回答已采纳

2回答

在Keras (TF后端)中的BatchNormalization实现-激活之前还是之后？

、、、

考虑下面的代码片段model.add(layers.Dense(256, activation='relu')) # Layer 1model.add(layers.Dense(128, activation='relu')) # Layer 2 我正在使用带有Tensorflow我的问题是-在Keras的实现中，BN是在<em

浏览 1提问于2019-04-24得票数 3

2回答

在非线性之前或之后在Keras中添加批处理规范化？

、、、

nb_filter, nb_row, nb_col, activation='relu中使用正式的模型时，我发现它们在“relu”非线性之后使用了BatchNormalization，就像上面的代码脚本一样。但在批量标准化论文中，作者们说通过对x=Wu+b进行归一化处理，在非线性</e

浏览 4提问于2017-02-21得票数 6

2回答

当使用多个隐藏层时，神经网络的准确性非常差

、、、

def softmax(v): return exp / np.tile(exp.sum(1), (v.shape[1], 1)).T for W, b in zip(self.weights[1:], self.biases[1:]): X = relu当使用单个隐藏层时，准确率接近40%。当使用2或3个隐藏层时，

浏览 1提问于2021-05-13得票数 5

2回答

神经网络中的激活函数

、、、、

我有一组关于神经网络中各种激活函数的使用的问题。如果有人能给我解释的话，我会非常感激的。为什么Sigmoid不用于多类分类？为什么我们在所有负值的回归问题中不使用任何激活函数？ 为什么我们在计算average='micro'分类时使用multi_class？

浏览 0提问于2019-11-13得票数 -1

回答已采纳

2回答

relu能在神经网络的最后一层使用吗？

、、、、

optimizer='adam', loss='mae', 但是，当我尝试将模型与解码器最后激活的(使用默认Adam设置)： validation_datamean_squared_error: 2089.1489 - val_

浏览 4提问于2020-09-14得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云