2023-11-30讨论班

Posted on 2023-11-30 Edited on 2023-12-04 In 组会记录

大模型的训练离不开高性能计算

训练过程：先pre-train一个base model，再fine tune一个aligned model，用于inference

训练优化：

NCCL提供了一个通信框架库，有描述这些通信的通信原语

NVLink Bridge & NVSwitch：主机内的多GPU高速通信网络

然后NV也提了一个多主机互联的硬件组织架构，用200GPS光纤链接

目前实践上支持主机内高速互联，然后每个GPU配一个网卡，通过PCIE传输数据

每个网卡接到不同的交换机(网络平面)——资源均摊
网络平面：
- 例子：两层胖树，每个树干交换机可以连64个leaf，每个leaf可以连32个树干，32个网卡端口
  
  -> 最多只能连2048(64*32)个GPU【？】，如果要扩展，可能就要多层。因此用多个网络平面来节省资源，同时由于一个GPU连了8个平面，因此平面和平面之间的数据对GPU来说都是可达的

LLM 33B 64G 256GPUS token1k/s

关于可靠性

推理优化：最新工作VLLM，数学等价拆分