知乎上有个问题,大意是你在等待机器学习模型训练的时候,都做些什么。
Facebook今天在西雅图Data@Scale大会上公布的一篇新论文说,他们用不着花太长时间等待,在ImageNet -1k的120万张图片上完成训练,以前需要几天,现在只要1小时。
该公司的工程师Pieter Noordhuis分享了新发表的论文《准确、大规模的小批量SGD:在1小时内训练ImageNet》。这篇论文展示了,具有创新性的基础设计如何规模提高深度学习的效率。
论文作者包括贾扬清、何凯明等。
Paper下载链接: https://research.fb.com/wp-content/uploads/2017/06/imagenet1kin1h3.pdf
在Facebook人工智能研究院和应用机器学习团队的密切合作下,这篇论文描述了Facebook研究员如何将同样任务上的训练时间,从几天减少至1小时。
他们在试验中,用基于Caffe2的系统,以高达8192张图的minibatch大小,在256个GPU上用包含120万张图片的ImageNet -1k来训练ResNet-50,只花了1个小时,同时确保了准确性。
该团队使用Caffe2和Gloo库去实现合作通信(这两个库文件都已上传至Github),以及Facebook的下一代GPU服务器Big Basin。这一服务的设计已于今年早些时候提交给了“开放计算项目”。
凭借这些成果,机器学习研究员可以开展试验,测试假设,以及推动一系列有依赖关系的技术的发展,无论是有趣的头像滤镜,还是用于现实增强的360度视频。
△ Facebook的照片滤镜