微软和Nvidia合作研究语言模型,发布了目前最大的单体Transformer语言模型MT-NLG(Turing Natural Language Generation Model),具有5,300亿个参数,作为Turing NLG 17B和Megatron-LM的后继者,MT-NLG的规模是目前这类最大模型的3倍,能在完成预测、阅读理解、常识推理、自然语言推理和词义消歧等自然语言任务,提供极高的准确性。
近年来自然语言处理领域,得利于Transformer语言模型的大规模运算、大资料集,和高端的训练算法,使得语言模型能够具有大量参数,进行更丰富、细致的语言理解,因此语言模型也能更有效地作为零样本或是少样本学习器,应用在更广泛的自然语言任务中。
现在训练大型语言模型,仍具有不小的挑战性,研究人员解释,即便是最大的GPU内存,也难以放下这么大量的参数,而且如果不对算法、软件和硬件堆栈进行优化,过长的运算时间将会使得训练模型变得不切实际。
微软和Nvidia密切合作,应用GPU和分布式学习软件堆栈,实现超高效率模型训练,并且使用数千亿的令牌,构建高品质自然语言训练语料库,共同开发训练配置,以优化效率和稳定性。
模型训练使用基于NvidiaDGX SuperPOD的Selene超级计算机,以混合精度训练完成,该超级计算机搭载560台DGX A100服务器,这些服务器使用HDR InfiniBand以全胖树拓扑连接,每台DGX A100拥有8颗A100 80GB Tensor Core GPU,之间以NVLink和NVSwitch相互联接。
研究人员解释,只有这种能够在数千个GPU间实现平行性的架构,才能在合理的时间,训练具有数千亿个参数的模型。但就现有的平行策略,包括资料、工作管线和张量切片,还是无法用于训练这种模型。
因此研究人员结合Megatron-LM和PyTorch深度学习优化函数库DeepSpeed,创建了高效且可扩展的3D平行系统,将资料、工作管线和基于张量切片的平行性结合在一起,来克服训练大型语言模型所遭遇的困难。
Megatron-LM的张量切片能够扩展节点内的模型,并借由DeepSpeed工作管线的平行性,来跨节点扩展模型。就5,300亿个参数的MT-NLG来说,每个模型副本需横跨280个A100 GPU,具有8路张量切片和跨节点的35路工作管线并行性,并且通过DeepSpeed的资料平行性,扩展模型至数千个GPU。
MT-NLG在多种类型的自然语言任务,都达到了目前最佳的结果,以少样本预测来说,比较或是寻找两句子间的关系,通常是对语言模型较具有挑战性的任务,但是MT-NLG能够使用更少的令牌训练,也就是说,更大型的模型训练速度更快。
除了一般自然语言任务都已经难不倒MT-NLG,MT-NLG还具有基本的数学运算能力,研究人员提到,虽然离真正具有算术能力还有一段距离,但该模型展现了超过记忆算数的能力。
另外,研究人员还在HANS资料集测试MT-NLG,借由向模型提供包含简单句法结构的句子作为问题,并且提示模型给予答案,过去这样的用例,即便结构相当简单,但是自然语言推理模型仍会对于这类输入感到苦手,但是MT-NLG在不需要微调的情况下,就能表现良好。
领取专属 10元无门槛券
私享最新 技术干货