据我所知,在深度神经网络中,我们在加权(w)和偏置(B) (z := w * X + b | a := g(z))之后使用激活函数(g)。因此,存在一个(g o z)的合成函数,激活函数使得我们的模型可以学习除线性函数以外的函数。我看到Sigmoid和Tanh激活函数使我们的模型非线性,但我发现ReLu (取0和z的最大值)可以使模型非线性.
假设每个Z都是正的,那么就好像没有激活
def softmax(v): return exp / np.tile(exp.sum(1), (v.shape[1], 1)).T
for W, b in zip(self.weights[1:], self.biases[1:]):
X = relu当使用单个隐藏层时,准确率接近40%。当使用2或3个隐藏层时,