Alice's Notebook

NCCL代码阅读-05

AllReduce操作流程(从ncclLaunchKernel开始) 因为我的项目基本上只用allreduce，所以我就重点关注了一下这个操作具体来说我用的是allreduce的u32的sum操作 ncclLaunchKernel前面的内容和《NCCL代码阅读-01》里面记录的sendrecv操作差不多，就不过多解释了准备工作：launchKernel的前夜这部分本来应该在01里面...

2024-12-19

通信库

NCCL
| 代码阅读

阅读全文NCCL代码阅读-05

tmux使用

需求我想在服务器上运行一个程序，但是这个程序耗时很长，我想断掉我本地机器和服务器的连接然后关机睡觉，但是我希望服务器上继续在跑解决方案：tmux tmux安装因为我用的服务器是组里面的多人服务器，所以我不能用root权限直接安装，又懒得用源码，于是就用conda虚拟环境安装12conda install -c conda-forge tmuxtmux -V tmux使用创建一个新的...

2024-12-15

实验室实践

tmux

阅读全文tmux使用

NCCL代码阅读-04

好的，再更具体一步，假设我们在两个 GPU 做 AllReduce 时，数据的具体划分、传输，以及每一阶段的变化都会明确说明。场景再具体化假设：数据大小：16 个 float 元素（64 字节，总数据量很小，便于解释）。 **数据类型：float**，每个元素 4 字节。 2 个 GPU（nranks = 2），使用环形拓扑（Ring）。 1 个通道（nChannels = 1，即...

2024-12-15

通信库

NCCL
| 代码阅读

阅读全文NCCL代码阅读-04

Makefile一个使用纠错记录

今天写课设的Makefile，遇到了一个问题，记录一下。12345678910111213141516171819202122232425262728293031323334353637# 包含路径设置INCLUDES := -IC:/source/ignisos/inc -IC:/source/ignisos/inc -I./user/# 源文件和目标文件SRCS := user/sys...

2024-12-11

实验室实践

Makefile

阅读全文Makefile一个使用纠错记录

NCCL代码阅读-03

通信组创建和销毁(官网给的例子，解释看注释)一个进程，一个线程，多个设备在这种单进程的场景下，可以使用ncclCommInitAll()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859int main(int argc, ...

2024-12-09

通信库

NCCL
| 代码阅读

阅读全文NCCL代码阅读-03

NCCL代码阅读-02

NCCL中重要的数据结构（持续更新）struct ncclComm实际使用的时候是 1typedef struct ncclComm* ncclComm_t; 在src\nccl.h.in 通信上下文比如两张GPU通信，每个GPU上都有一个comm，每个GPU都有一个rank，他们俩共享一个uniqueId，这个uniqueId是由root GPU生成的，然后广播给其他GPU，这样其他G...

2024-12-09

通信库

NCCL
| 代码阅读

阅读全文NCCL代码阅读-02

CUDA编程模型

https://developer.nvidia.com/blog/cuda-refresher-cuda-programming-model/ 一组线程组成一个CUDA block 一组CUDA block组成一个CUDA grid 每个CUDA block只能在一个CUDA SM上执行，不可以跨SM 每个SM可以跑多个并发的CUDA block 每个线程可以用一个三维的索引来标...

2024-12-08

CUDA

CUDA

阅读全文CUDA编程模型

同步机制

barrier在计算机科学和并行计算中，barrier（屏障）是一种同步机制，用于确保一组线程或进程在某个特定点之前都完成其任务，然后才能继续执行后续操作。它的核心功能是强制所有线程或进程“汇合”到某个同步点，并等待所有参与者都到达该点后，才能继续执行。详细解释工作原理屏障点: 程序中设置一个“屏障点”，所有线程或进程在到达这个点后都会停下来。只有当所有线程或进程都到达这个屏障点后，它...

2024-12-08

操作系统知识

系统

阅读全文同步机制

实验室服务器nccl部署命令

nccl编译1make src.build CUDA_HOME=/usr/lib/nvidia-cuda-toolkit/ NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80" 查看各种库的安装路径由于管理员最初好像是用apt安装的，所以可以这样查找以查找mpi为例1dpkg -S mpicc nccl-test编译...

2024-12-04

实验室实践

实验室
| nccl

阅读全文实验室服务器nccl部署命令

hexo常用命令

新建一篇文章1hexo new "文章标题" 本地重新生成静态文件12hexo cleanhexo g 发布到github.io1hexo d 在文章里面插入图片首先把图片放到source/images下面然后文章里插入：1<img src="/images/图片文件名" width="50%">

2024-12-04

hexo

hexo
| 部署

阅读全文hexo常用命令