• NCCL代码阅读-02

    NCCL中重要的数据结构(持续更新)struct ncclComm实际使用的时候是 1typedef struct ncclComm* ncclComm_t; 在src\nccl.h.in 通信上下文 比如两张GPU通信,每个GPU上都有一个comm,每个GPU都有一个rank,他们俩共享一个uniqueId,这个uniqueId是由root GPU生成的,然后广播给其他GPU,这样其他G...
  • CUDA编程模型

    https://developer.nvidia.com/blog/cuda-refresher-cuda-programming-model/ 一组线程组成一个CUDA block 一组CUDA block组成一个CUDA grid 每个CUDA block只能在一个CUDA SM上执行,不可以跨SM 每个SM可以跑多个并发的CUDA block 每个线程可以用一个三维的索引来标...
  • 同步机制

    barrier在计算机科学和并行计算中,barrier(屏障)是一种同步机制,用于确保一组线程或进程在某个特定点之前都完成其任务,然后才能继续执行后续操作。它的核心功能是强制所有线程或进程“汇合”到某个同步点,并等待所有参与者都到达该点后,才能继续执行。 详细解释工作原理 屏障点: 程序中设置一个“屏障点”,所有线程或进程在到达这个点后都会停下来。 只有当所有线程或进程都到达这个屏障点后,它...
  • 实验室服务器nccl部署命令

    nccl编译1make src.build CUDA_HOME=/usr/lib/nvidia-cuda-toolkit/ NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80" 查看各种库的安装路径 由于管理员最初好像是用apt安装的,所以可以这样查找 以查找mpi为例1dpkg -S mpicc nccl-test编译...
  • hexo常用命令

    新建一篇文章1hexo new "文章标题" 本地重新生成静态文件12hexo cleanhexo g 发布到github.io1hexo d 在文章里面插入图片 首先把图片放到source/images下面 然后文章里插入:1<img src="/images/图片文件名" width="50%">
  • NCCL代码阅读-01

    nccl源码结构整体结构概览123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778.├── bootstrap.cc├── channel.cc├── c...
123