实验室服务器nccl部署命令

Alice Yu Lv3

nccl编译

1
make src.build CUDA_HOME=/usr/lib/nvidia-cuda-toolkit/ NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80"

查看各种库的安装路径

  • 由于管理员最初好像是用apt安装的,所以可以这样查找
  • 以查找mpi为例
    1
    dpkg -S mpicc

nccl-test编译

1
make MPI=1 MPI_HOME=/usr/mpi/gcc/openmpi-4.1.7a1 CUDA_HOME=/usr/lib/nvidia-cuda-toolkit/ NCCL_HOME=/home/cyu/tccl-2024/nccl/build

nccl-test测试

1
2
export LD_LIBRARY_PATH=/home/cyu/tccl-2024/nccl/build/lib:$LD_LIBRARY_PATH
./build/all_reduce_perf -b 8 -e 128M -f 2 -g 2

如果mpi的库修改了版本

1
vim ~/.bashrc
  • 在文件末尾添加:
    1
    2
    export PATH=/usr/mpi/gcc/openmpi-4.1.7rc1/bin:$PATH
    export LD_LIBRARY_PATH=/usr/mpi/gcc/openmpi-4.1.7rc1/lib:$LD_LIBRARY_PATH
  • 保存退出,然后source ~/.bashrc生效