这是[改善深度神经网络]课程第二周的习题,一共10道。
解答:
[l]表示第l层,表示第l个minibatch,(l)表示第l个样本。
答案选项3
解答:
选项1是肯定的,一个mini-batch的数据小于总样本,所以仅就一次迭代而言,mini-batch是快于整批迭代的。
一个epoch的mini-batch梯度递减迭代无法完全向量化所有样本,存在for循环,所以速度慢于整批迭代。
mini-batch梯度递减迭代需要for循环处理不同批次的数据,所以选项3也是错误的。
答案是选项1
解答:
如果mini-batch的大小为m,就是批量梯度递减迭代,而mini-batch的大小为1,就退化为随机梯度递减迭代,无法享受到向量化带来的好处。
答案选项2、4
解答:
mini-batch可能局部存在代价增加的情况,但总体上应该是下降的。批量梯度递减则应该是严格单调下降的。
答案是选项1
解答:
因为没有最开始的数据,所以v2在未校正前无法反映真实数据,小于平均值,校正之后正常,答案是选项3
解答:
选项3的alpha值随着t的增加,不断增加,是错误的方案。
答案选项3
解答:
增加beta值使得曲线更加平滑,同时整个曲线也会右移。
答案是选项2、3
解答:
1的下降曲线波动幅度最大,没有动量加速,增加beta值,下降曲线波动幅度减小,所以答案是选项3
解答:
加快学习速度的方法有:增加学习率、使用Adam优化、mini-batch梯度递减、精心选择的权重初始化值。而将权重值初始化为0或导致权重对称问题,不能采用。
答案是选项1、2、4、5
解答:
Adam优化用于mini-batch梯度递减,而不是批量梯度递减。
所以答案是选项2。
领取专属 10元无门槛券
私享最新 技术干货