面向大模型训练的新型数据中心智算网络体系
分享人:翟恩男
阿里云网络研究复杂人
29个主干数据中心(足球场大小),3000个左右边缘云(机房大小)提供服务
把数据面等计算的负载从CPU offload到可编程芯片上从而提高业务计算能力
网络的技术挑战来自于规模化
DNS
- 正确性:SOSP’23 形式化验证
- 虚拟化可扩展
广域网
- 可靠性
- 网络故障原因:
- 软件,路由器软件bug
- 硬件——现在冗余提高了可靠性
- 配置
- 网络故障原因:
- 运营效率
- 流量调度
可编程边缘云网关
- 编程效率
- 程序交换性
数据中心里拓扑比较规整,基本都是软硬件问题(靠监控解决),配置问题很少
大模型时代的数据中心的改变:
- 算力非常关键(例如 GPU number)
- 大模型训练过程中,网络是瓶颈
- 大模型是脉冲式的网络占用(无法提供给那么多租户),通用计算则网络占用比较稳定。因此传统的ECMP/流控/网络监控不再适用
- 大模型对网络故障、带宽损失极其敏感
传统网络尽力而为,对应用是黑盒,如果能网络适应应用,那么就可以获得一个白盒的视角。阿里目前自研交换机差不多覆盖了60-70%,约10w台
交换机芯片大部分供货来自博通
NCCL开源库有很多问题,自研ACCL库
拥塞控制HCPP方法,选路担保
……
核心竞争力(壁垒性)↑
- 弱:各种创新技术(paper一发就能被学过去)
- 中:架构建设与交付的工具/管理;全自动化的交付流程
- 强:芯片和数据集;芯片生产工艺;数据集清洗
大模型的盈利模式在于结合各种软件吸引用,SaaS,因此推理很重要
- 如何网络+推理
AI for network management
发展硬核技术,实现能落地的创新