各位好,目前整的一个环境如下:
128节点,4张A100/4张网卡/Ubuntu环境/IB网络
跑Allreduce 三种算法基本在197左右达到预期。
跑Alltoall 32节点能到24.74GB/s,64节点就直接掉到了17.74GB/s,相比验收预期20GB/s相差较大。
请教各位有无调优的建议方向?感谢!
测试参数如下:
mpirun \
--allow-run-as-root \
-mca plm_rsh_no_tree_spawn true \
-mca plm_rsh_args "-p 1111 -q -o StrictHostKeyChecking=no" \
--map-by slot \
--hostfile hosts_test_mpi.txt \
--oversubscribe \
-x LD_LIBRARY_PATH=/workspace/packs/nccl/build/lib:$LD_LIBRARY_PATH \
-x NCCL_SOCKET_IFNAME=bond0 \
-x NCCL_P2P_LEVEL=SYS \
-x NCCL_IB_GID_INDEX=3 \
-x ACCL_TOPO_4NIC_FIX=1 \
-x ACCL_TUNING_LEVEL=3 \
/workspace/packs/nccl-tests/build/alltoall_perf \
-b 2M -e 16G -f 2 -n 10 -g 1 -w 10
相似问题