文档中心>实践教程>高性能计算平台>THPC 平台使用 HCCPNV6 GPU 集群训练 LLaMA 模型实践

THPC 平台使用 HCCPNV6 GPU 集群训练 LLaMA 模型实践

最近更新时间:2026-03-10 14:35:48

我的收藏
Llama 系列是 Meta AI 推出的开源大语言模型家族,涵盖 Llama 2与 Llama 3等版本。该系列模型性能强大、支持多规模参数与多场景适配,并可通过微调灵活赋能企业级 AI 应用。THPC 平台已全面支持该系列模型,本文以 Meta-Llama-3-70B 模型为例为您介绍如何在 THPC 平台上针对该系列模型进行训练。

前提条件

为了能正常使用高性能计算平台的功能,您需要分别对高性能计算平台批量计算的服务角色进行授权,授权后才能正常使用相关云资源。



环境准备

创建 HCCPNV6 实例并纳管至高性能计算平台,且实例状态为运行中。
1.1 登录 云服务器购买页,选择对应实例规格。在设置网络和主机 > 其他设置 > 高性能计算平台,勾选免费将实例添加到集群中纳管。其他配置与创建云服务器一致,详情请参见 通过购买页创建实例
说明:
创建 HCCPNV6 实例时需配置高性能集群信息,如需创建对应资源,请参见 创建高性能计算集群


1.2 登录 云服务器控制台 查看实例平台系统标签,根据 qcs:tag:thpc:node:clusterId 查询对应的 THPC 集群 ID。

1.3 登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,确认节点状态运行中

(可选)设置集群级别初始化
登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,在左侧导航栏选择集群信息。等待计算节点加入集群后,单击基础信息位置的添加脚本,设置脚本路径。设置完成后,集群会自动完成计算节点的驱动安装、本地盘挂载和 Docker 依赖部署等环境准备工作。

脚本路径如下:
http://mirrors.tencentyun.com/install/thpc/init_gpu_node.sh

操作步骤

步骤1: 准备训练数据集

1. 登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,在左侧导航栏选择作业管理
2. 单击新建作业,使用以下参数样例提交作业任务,下载模型训练所需的数据集。
说明:
此处仅为部分重要参数值样例,其他参数可参考页面指引配置。
参数
参数值
作业名称
自定义作业名称
作业描述
自定义作业描述,以便您记录该作业的详细信息
运行环境
此处选择容器
容器镜像
此处使用ccr.ccs.tencentyun.com/taco/taco-train:ngc24.03-ofed5.8-hccpnv6-v1
镜像版本(Tag)
根据容器镜像参数值自动填充,此处使用ngc24.03-ofed5.8-hccpnv6-v1.0
挂载配置
宿主机源目录/data0/
容器目标挂载位置/data/
作业框架
此处使用自定义
启动命令
此处使用cd /workspace/Megatron-LM && bash download_dataset.sh
日志路径
此处使用/data/


步骤2: 发起训练任务

平台当前支持 PyTorch 训练框架,框架相关环境变量如下:
环境变量名
描述
MASTER_ADDR
Master 节点地址
MASTER_PORT
Master 节点端口
WORLD_SIZE
分布式作业的节点总数
RANK
节点的 Index
NPROC_PER_NODE
单个 Worker 节点的 GPU 卡数
HOST_FILE
host file 文件路径
您可执行以下脚本获取环境变量:
env | grep -i 'MASTER_ADDR\\|MASTER_PORT\\|WORLD_SIZE\\|RANK\\|NPROC_PER_NODE\\|HOST_FILE'

按照以下步骤提交一个作业任务,发起模型训练任务。
1. 登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,在左侧导航栏选择作业管理
2. 单击新建作业,使用以下参数样例提交作业任务,发起模型训练任务。
说明:
此处仅为部分重要参数值样例,其他参数可参考页面指引配置。
参数
参数值
作业名称
自定义作业名称
作业描述
自定义作业描述,以便您记录该作业的详细信息
运行环境
此处选择容器
容器镜像
此处使用ccr.ccs.tencentyun.com/taco/taco-train:ngc24.03-ofed5.8-hccpnv6-v1.0
镜像版本(Tag)
根据容器镜像参数值自动填充,此处使用ngc24.03-ofed5.8-hccpnv6-v1.0
挂载配置
宿主机源目录/data0/
容器目标挂载位置/data/
作业框架
此处使用 PyTorch
启动命令
此处使用cd /workspace/Megatron-LM/ && bash start_llama.sh 70-3 ${MASTER_ADDR} ${WORLD_SIZE} ${RANK}
日志路径
此处使用/data/


步骤3: 登录计算节点,查看日志

1. 登录 高性能计算平台 > 智算平台 > 集群列表,单击目标集群 ID,进入集群节点管理页面,单击目标节点操作列登录。
2. 登录计算节点,执行以下脚本输出训练日志。其中{job_id}为您的训练任务 ID。
tail -f -n 100 /data/{job_id}*.log
返回结果如下: