对于个人笔记本或台式机,可以选择Nvidia RTX 2080Ti、Titan RTX等旗舰级显卡,带有11GB以上显存。这可以支持小批量的Transformer训练。...如果使用公有云服务,可以选择配置GPU内存不小于8GB的虚拟机,如AWS p3.2xlarge实例。...二、深度学习框架选型目前主流的深度学习框架都提供了对Transformer模型的支持,选择需要考虑以下因素:TensorFlow 2.0+ 版本提供了Keras接口便于构建PyTorch动态图设计也易于...此外要监视GPU使用状况,如温度、利用率、显存占用等,避免发生错误。四、分布式集群构建为了加速Transformer的训练,可以构建多机多卡的分布式集群系统。...七、并行数据预处理由于Transformer训练数据量较大,数据预处理也需要利用并行化手段进行加速,常见方法包括:在数据清洗、建词表等处理步骤中,可以对数据进行拆分,在多CPU核上并行操作,最后合并结果