Llama 系列是 Meta AI 推出的开源大语言模型家族,涵盖 Llama 2与 Llama 3等版本。该系列模型性能强大、支持多规模参数与多场景适配,并可通过微调灵活赋能企业级 AI 应用。THPC 平台已全面支持该系列模型,本文以 Meta-Llama-3-70B 模型为例为您介绍如何在 THPC 平台上针对该系列模型进行训练。
前提条件
为了能正常使用高性能计算平台的功能,您需要分别对高性能计算平台和批量计算的服务角色进行授权,授权后才能正常使用相关云资源。


环境准备
创建 HCCPNV6 实例并纳管至高性能计算平台,且实例状态为运行中。
说明:


1.2 登录 云服务器控制台 查看实例平台系统标签,根据
qcs:tag:thpc:node:clusterId 查询对应的 THPC 集群 ID。
1.3 登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,确认节点状态为运行中。

(可选)设置集群级别初始化
登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,在左侧导航栏选择集群信息。等待计算节点加入集群后,单击基础信息位置的添加脚本,设置脚本路径。设置完成后,集群会自动完成计算节点的驱动安装、本地盘挂载和 Docker 依赖部署等环境准备工作。

脚本路径如下:
http://mirrors.tencentyun.com/install/thpc/init_gpu_node.sh
操作步骤
步骤1: 准备训练数据集
1. 登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,在左侧导航栏选择作业管理。
2. 单击新建作业,使用以下参数样例提交作业任务,下载模型训练所需的数据集。
说明:
此处仅为部分重要参数值样例,其他参数可参考页面指引配置。
参数 | 参数值 |
作业名称 | 自定义作业名称 |
作业描述 | 自定义作业描述,以便您记录该作业的详细信息 |
运行环境 | 此处选择容器 |
容器镜像 | 此处使用 ccr.ccs.tencentyun.com/taco/taco-train:ngc24.03-ofed5.8-hccpnv6-v1 |
镜像版本(Tag) | 根据容器镜像参数值自动填充,此处使用 ngc24.03-ofed5.8-hccpnv6-v1.0 |
挂载配置 | 宿主机源目录: /data0/容器目标挂载位置: /data/ |
作业框架 | 此处使用自定义 |
启动命令 | 此处使用 cd /workspace/Megatron-LM && bash download_dataset.sh |
日志路径 | 此处使用 /data/ |

步骤2: 发起训练任务
平台当前支持 PyTorch 训练框架,框架相关环境变量如下:
环境变量名 | 描述 |
MASTER_ADDR | Master 节点地址 |
MASTER_PORT | Master 节点端口 |
WORLD_SIZE | 分布式作业的节点总数 |
RANK | 节点的 Index |
NPROC_PER_NODE | 单个 Worker 节点的 GPU 卡数 |
HOST_FILE | host file 文件路径 |
您可执行以下脚本获取环境变量:
env | grep -i 'MASTER_ADDR\\|MASTER_PORT\\|WORLD_SIZE\\|RANK\\|NPROC_PER_NODE\\|HOST_FILE'

按照以下步骤提交一个作业任务,发起模型训练任务。
1. 登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,在左侧导航栏选择作业管理。
2. 单击新建作业,使用以下参数样例提交作业任务,发起模型训练任务。
说明:
此处仅为部分重要参数值样例,其他参数可参考页面指引配置。
参数 | 参数值 |
作业名称 | 自定义作业名称 |
作业描述 | 自定义作业描述,以便您记录该作业的详细信息 |
运行环境 | 此处选择容器 |
容器镜像 | 此处使用 ccr.ccs.tencentyun.com/taco/taco-train:ngc24.03-ofed5.8-hccpnv6-v1.0 |
镜像版本(Tag) | 根据容器镜像参数值自动填充,此处使用 ngc24.03-ofed5.8-hccpnv6-v1.0 |
挂载配置 | 宿主机源目录: /data0/容器目标挂载位置: /data/ |
作业框架 | 此处使用 PyTorch |
启动命令 | 此处使用 cd /workspace/Megatron-LM/ && bash start_llama.sh 70-3 ${MASTER_ADDR} ${WORLD_SIZE} ${RANK} |
日志路径 | 此处使用 /data/ |

步骤3: 登录计算节点,查看日志
1. 登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,单击目标节点操作列登录。
2. 登录计算节点,执行以下脚本输出训练日志。其中
{job_id}为您的训练任务 ID。tail -f -n 100 /data/{job_id}*.log
返回结果如下:
