面向大模型训练的新型数据中心智算网络体系

Posted on 2024-01-05 Edited on 2024-02-27 In 技术视野

分享人：翟恩男

阿里云网络研究复杂人

29个主干数据中心(足球场大小)，3000个左右边缘云(机房大小)提供服务

把数据面等计算的负载从CPU offload到可编程芯片上从而提高业务计算能力

网络的技术挑战来自于规模化

DNS

广域网

可编程边缘云网关

数据中心里拓扑比较规整，基本都是软硬件问题(靠监控解决)，配置问题很少

大模型时代的数据中心的改变：

算力非常关键(例如 GPU number)
大模型训练过程中，网络是瓶颈
- 大模型是脉冲式的网络占用(无法提供给那么多租户)，通用计算则网络占用比较稳定。因此传统的ECMP/流控/网络监控不再适用
- 大模型对网络故障、带宽损失极其敏感

传统网络尽力而为，对应用是黑盒，如果能网络适应应用，那么就可以获得一个白盒的视角。阿里目前自研交换机差不多覆盖了60-70%，约10w台

交换机芯片大部分供货来自博通

NCCL开源库有很多问题，自研ACCL库

拥塞控制HCPP方法，选路担保

……

核心竞争力(壁垒性)↑

大模型的盈利模式在于结合各种软件吸引用，SaaS，因此推理很重要

AI for network management

发展硬核技术，实现能落地的创新