首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >NCCL-test Alltoall性能不达标?

NCCL-test Alltoall性能不达标?

提问于 2024-08-19 18:48:38
回答 2关注 0查看 100

各位好,目前整的一个环境如下:

128节点,4张A100/4张网卡/Ubuntu环境/IB网络

跑Allreduce 三种算法基本在197左右达到预期。

跑Alltoall 32节点能到24.74GB/s,64节点就直接掉到了17.74GB/s,相比验收预期20GB/s相差较大。

请教各位有无调优的建议方向?感谢!

测试参数如下:

mpirun \

--allow-run-as-root \

-mca plm_rsh_no_tree_spawn true \

-mca plm_rsh_args "-p 1111 -q -o StrictHostKeyChecking=no" \

--map-by slot \

--hostfile hosts_test_mpi.txt \

--oversubscribe \

-x LD_LIBRARY_PATH=/workspace/packs/nccl/build/lib:$LD_LIBRARY_PATH \

-x NCCL_SOCKET_IFNAME=bond0 \

-x NCCL_P2P_LEVEL=SYS \

-x NCCL_IB_GID_INDEX=3 \

-x ACCL_TOPO_4NIC_FIX=1 \

-x ACCL_TUNING_LEVEL=3 \

/workspace/packs/nccl-tests/build/alltoall_perf \

-b 2M -e 16G -f 2 -n 10 -g 1 -w 10

回答

和开发者交流更多问题细节吧,去 写回答
相关文章

相似问题

相关问答用户
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档