首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    浅谈大模型训练排障平台的建设

    在应用层,可以通过 分析应用日志、使用 GDB 或 cuda-gdb 调试应用,pystack 查看调用栈信息。...最后,我们对应用层进行分析,增加一些环境变量,增加程序hang超时退出时的日志,并利用集群排障工具,对所有rank,使用cuda-gdb进行调用栈分析,以检测是否有进程或线程存在不一致的情况。...使用 cuda-gdb 工具对调用栈进行分析cuda-gdb 用于调试 cuda应用程序,是 GDB的扩展。...官方介绍:https://docs.nvidia.com/cuda/cuda-gdb/index.html, cuda-gdb 通常情况下,一般会在驱动安装时安装好。...需要注意的是,在容器中,需要使用 cuda-gdb 时,需要映射 libcudadebugger.so 文件到容器中,否则cuda-gdb可能无法正常工作。

    3K364
    领券