sigmoid 函数和 tanh 函数都有的缺点是,当 z 非常大或者非常小的时候,这个函数的梯度/斜率会变得很小....ReLU 函数.对于 ReLU 函数在负数时斜率为 0 的问题,也给出了解决方案,被称为带泄露的 ReLU(leaky ReLU).当 z 为负数时,函数不再为 0,它有一个很平缓的斜率.leaky...随机初始化十分重要,对于 logistic regression 我们可以将权重设置为 0,但是如果将所有层权重设置为 0,在使用梯度下降法,那会完全无效.因为通过归纳法证明同一层的不同神经元如果都初始化为...0,那么经过相同的激活函数,在计算反向传播算法时,其下降梯度即
.即同一层不同神经元对于权重的下降梯度完全相同,这样一个隐藏层有多个神经元和隐藏层拥有一个神经元效果相同.解决这个的方法就是随机初始化参数...我们一般将 w 和 b 设置为很小的随机值,因为在方程 z=w*x+b 中,如果计算得到的 z 值过大,会落在 sigmoid 或者是 tanh 函数的平缓地带,这样使用梯度下降法时会非常慢.也会学习的非常慢