高性能计算平台 THPC 平台使用 HCCPNV6 GPU 集群

Llama 系列是 Meta AI 推出的开源大语言模型家族，涵盖 Llama 2与 Llama 3等版本。该系列模型性能强大、支持多规模参数与多场景适配，并可通过微调灵活赋能企业级 AI 应用。THPC 平台已全面支持该系列模型，本文以 Meta-Llama-3-70B 模型为例为您介绍如何在 THPC 平台上针对该系列模型进行训练。
前提条件
为了能正常使用高性能计算平台的功能，您需要分别对高性能计算平台和批量计算的服务角色进行授权，授权后才能正常使用相关云资源。
﻿授权高性能计算平台服务角色﻿
﻿
﻿授权批量计算服务角色﻿
﻿
环境准备
创建 HCCPNV6 实例并纳管至高性能计算平台，且实例状态为运行中。
1.1 登录 云服务器购买页，选择对应实例规格。在设置网络和主机 > 其他设置 > 高性能计算平台，勾选免费将实例添加到集群中纳管。其他配置与创建云服务器一致，详情请参见 通过购买页创建实例。
说明：
创建 HCCPNV6 实例时需配置高性能集群信息，如需创建对应资源，请参见 创建高性能计算集群。
﻿
﻿
1.2 登录 云服务器控制台 查看实例平台系统标签，根据 qcs:tag:thpc:node:clusterId 查询对应的 THPC 集群 ID。
﻿
1.3 登录 高性能计算平台 > 智算平台 > 集群列表，单击目标集群 ID，进入集群节点管理页面，确认节点状态为运行中。
﻿
（可选）设置集群级别初始化
登录 高性能计算平台 > 智算平台 > 集群列表，单击目标集群 ID，进入集群节点管理页面，在左侧导航栏选择集群信息。等待计算节点加入集群后，单击基础信息位置的添加脚本，设置脚本路径。设置完成后，集群会自动完成计算节点的驱动安装、本地盘挂载和 Docker 依赖部署等环境准备工作。
﻿
脚本路径如下：
http://mirrors.tencentyun.com/install/thpc/init_gpu_node.sh
操作步骤
步骤1: 准备训练数据集
1. 登录 高性能计算平台 > 智算平台 > 集群列表，单击目标集群 ID，进入集群节点管理页面，在左侧导航栏选择作业管理。
2. 单击新建作业，使用以下参数样例提交作业任务，下载模型训练所需的数据集。
说明：
此处仅为部分重要参数值样例，其他参数可参考页面指引配置。
参数
参数值
作业名称
自定义作业名称
作业描述
自定义作业描述，以便您记录该作业的详细信息
运行环境
此处选择容器
容器镜像
此处使用ccr.ccs.tencentyun.com/taco/taco-train:ngc24.03-ofed5.8-hccpnv6-v1
镜像版本（Tag）
根据容器镜像参数值自动填充，此处使用ngc24.03-ofed5.8-hccpnv6-v1.0
挂载配置
宿主机源目录：/data0/
容器目标挂载位置：/data/
作业框架
此处使用自定义
启动命令
此处使用cd /workspace/Megatron-LM && bash download_dataset.sh
日志路径
此处使用/data/
﻿
步骤2: 发起训练任务
平台当前支持 PyTorch 训练框架，框架相关环境变量如下：
环境变量名
描述
MASTER_ADDR
Master 节点地址
MASTER_PORT
Master 节点端口
WORLD_SIZE
分布式作业的节点总数
RANK
节点的 Index
NPROC_PER_NODE
单个 Worker 节点的 GPU 卡数
HOST_FILE
host file 文件路径
您可执行以下脚本获取环境变量：
env | grep -i 'MASTER_ADDR\\|MASTER_PORT\\|WORLD_SIZE\\|RANK\\|NPROC_PER_NODE\\|HOST_FILE'
﻿
按照以下步骤提交一个作业任务，发起模型训练任务。
1. 登录 高性能计算平台 > 智算平台 > 集群列表，单击目标集群 ID，进入集群节点管理页面，在左侧导航栏选择作业管理。
2. 单击新建作业，使用以下参数样例提交作业任务，发起模型训练任务。
说明：
此处仅为部分重要参数值样例，其他参数可参考页面指引配置。
参数
参数值
作业名称
自定义作业名称
作业描述
自定义作业描述，以便您记录该作业的详细信息
运行环境
此处选择容器
容器镜像
此处使用ccr.ccs.tencentyun.com/taco/taco-train:ngc24.03-ofed5.8-hccpnv6-v1.0
镜像版本（Tag）
根据容器镜像参数值自动填充，此处使用ngc24.03-ofed5.8-hccpnv6-v1.0
挂载配置
宿主机源目录：/data0/
容器目标挂载位置：/data/
作业框架
此处使用 PyTorch
启动命令
此处使用cd /workspace/Megatron-LM/ && bash start_llama.sh 70-3 ${MASTER_ADDR} ${WORLD_SIZE} ${RANK}
日志路径
此处使用/data/
﻿
步骤3: 登录计算节点，查看日志
1. 登录 高性能计算平台 > 智算平台 > 集群列表，单击目标集群 ID，进入集群节点管理页面，单击目标节点操作列登录。
2. 登录计算节点，执行以下脚本输出训练日志。其中{job_id}为您的训练任务 ID。
tail -f -n 100 /data/{job_id}*.log
返回结果如下：
﻿
﻿
﻿

参数	参数值
作业名称	自定义作业名称
作业描述	自定义作业描述，以便您记录该作业的详细信息
运行环境	此处选择容器
容器镜像	此处使用`ccr.ccs.tencentyun.com/taco/taco-train:ngc24.03-ofed5.8-hccpnv6-v1`
镜像版本（Tag）	根据容器镜像参数值自动填充，此处使用`ngc24.03-ofed5.8-hccpnv6-v1.0`
挂载配置	宿主机源目录：`/data0/` 容器目标挂载位置：`/data/`
作业框架	此处使用自定义
启动命令	此处使用`cd /workspace/Megatron-LM && bash download_dataset.sh`
日志路径	此处使用`/data/`

参数	参数值
作业名称	自定义作业名称
作业描述	自定义作业描述，以便您记录该作业的详细信息
运行环境	此处选择容器
容器镜像	此处使用`ccr.ccs.tencentyun.com/taco/taco-train:ngc24.03-ofed5.8-hccpnv6-v1.0`
镜像版本（Tag）	根据容器镜像参数值自动填充，此处使用`ngc24.03-ofed5.8-hccpnv6-v1.0`
挂载配置	宿主机源目录：`/data0/` 容器目标挂载位置：`/data/`
作业框架	此处使用 PyTorch
启动命令	此处使用`cd /workspace/Megatron-LM/ && bash start_llama.sh 70-3 ${MASTER_ADDR} ${WORLD_SIZE} ${RANK}`
日志路径	此处使用`/data/`

THPC 平台使用 HCCPNV6 GPU 集群训练 LLaMA 模型实践

本页目录：

前提条件

环境准备

操作步骤

步骤1: 准备训练数据集

步骤2: 发起训练任务

步骤3: 登录计算节点，查看日志

环境变量名	描述
MASTER_ADDR	Master 节点地址
MASTER_PORT	Master 节点端口
WORLD_SIZE	分布式作业的节点总数
RANK	节点的 Index
NPROC_PER_NODE	单个 Worker 节点的 GPU 卡数
HOST_FILE	host file 文件路径