首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    浅谈大模型训练排障平台的建设

    在应用层,可以通过 分析应用日志、使用 GDB 或 cuda-gdb 调试应用,pystack 查看调用栈信息。...最后,我们对应用层进行分析,增加一些环境变量,增加程序hang超时退出时的日志,并利用集群排障工具,对所有rank,使用cuda-gdb进行调用栈分析,以检测是否有进程或线程存在不一致的情况。...使用 cuda-gdb 工具对调用栈进行分析cuda-gdb 用于调试 cuda应用程序,是 GDB的扩展。...官方介绍:https://docs.nvidia.com/cuda/cuda-gdb/index.html, cuda-gdb 通常情况下,一般会在驱动安装时安装好。...需要注意的是,在容器中,需要使用 cuda-gdb 时,需要映射 libcudadebugger.so 文件到容器中,否则cuda-gdb可能无法正常工作。

    2.2K364

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券