简单地三层网络解决一个回归问题,输入5,隐藏24,输出1,SGD MSELOSS
第一轮调参,一个EPOCH的MSE loss均值最好结果是0.02,再也降不下去了。发现的问题总结如下:
1、SGD学习率大于0.001的话,会导致loss不收敛。但是也不是越小越好,比如0.0005就比0.0001好,前者能达到0.4,后者只能到0.6。
2、batch size小一点好,例如我的样本有1万个,batch size设成50效果就是比设成100稍微好一点。但是设成1,2,4也不行,收敛不了。
3、Adam确实比SGD快。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。