多GPU环境下的卷积神经网络并行算法
王裕民,顾乃杰,张孝慈
中国科学技术大学
随着深度学习的不断发展,卷积神经网络凭借其优异的识别性能,在图像识别、语音识别等领域受到了越来越多的关注.卷积神经网络的研究需要进行充分的实验,然而其训练过程通常需要大量时间.使用高性能GPU可以加速卷积神经网络的训练过程,但是由于GPU的特殊结构,进行多GPU的扩展时难以取得令人满意的加速比.提出一种在多GPU下的数据并行算法,与传统的客户机/服务器结构不同,该算法以环形结构组织GPU,更有利于多GPU扩展,系统不会受限于服务器节点的性能.此外还通过并行化单个GPU的计算与传输任务,提高GPU的使用效率.实验结果表明,使用4个GPU时,该算法分别在mnist和cifar10数据集上取得了3.77和3.79倍的加速比,并且对网络的识别性能无显著影响.
小型微型计算机系统
2017, 38(3): 536-539
作者简介王裕民,男,1991年生,硕士,研究方向为并行计算、卷积神经网络; 顾乃杰,男,1961年生,博士,教授,博士生导师,研究方向为体系结构及高性能计算; 张孝慈,男,1991年生,博士,研究方向为并行计算、深度神经网络.
http://xwxt.sict.ac.cn/CN/Y2017/V38/I3/536
领取专属 10元无门槛券
私享最新 技术干货