实验室服务器nccl部署命令

nccl编译
1 | make src.build CUDA_HOME=/usr/lib/nvidia-cuda-toolkit/ NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80" |
查看各种库的安装路径
- 由于管理员最初好像是用apt安装的,所以可以这样查找
- 以查找mpi为例
1
dpkg -S mpicc
nccl-test编译
1 | make MPI=1 MPI_HOME=/usr/mpi/gcc/openmpi-4.1.7a1 CUDA_HOME=/usr/lib/nvidia-cuda-toolkit/ NCCL_HOME=/home/cyu/tccl-2024/nccl/build |
nccl-test测试
1 | export LD_LIBRARY_PATH=/home/cyu/tccl-2024/nccl/build/lib:$LD_LIBRARY_PATH |
如果mpi的库修改了版本
1 | vim ~/.bashrc |
- 在文件末尾添加:
1
2export PATH=/usr/mpi/gcc/openmpi-4.1.7rc1/bin:$PATH
export LD_LIBRARY_PATH=/usr/mpi/gcc/openmpi-4.1.7rc1/lib:$LD_LIBRARY_PATH - 保存退出,然后source ~/.bashrc生效