面向大模型训练的新型数据中心智算网络体系

分享人:翟恩男

阿里云网络研究复杂人

29个主干数据中心(足球场大小),3000个左右边缘云(机房大小)提供服务

把数据面等计算的负载从CPU offload到可编程芯片上从而提高业务计算能力

网络的技术挑战来自于规模化

DNS

  • 正确性:SOSP’23 形式化验证
  • 虚拟化可扩展

广域网

  • 可靠性
    • 网络故障原因:
      • 软件,路由器软件bug
      • 硬件——现在冗余提高了可靠性
      • 配置
  • 运营效率
  • 流量调度

可编程边缘云网关

  • 编程效率
  • 程序交换性

数据中心里拓扑比较规整,基本都是软硬件问题(靠监控解决),配置问题很少

大模型时代的数据中心的改变:

  • 算力非常关键(例如 GPU number)
  • 大模型训练过程中,网络是瓶颈
    • 大模型是脉冲式的网络占用(无法提供给那么多租户),通用计算则网络占用比较稳定。因此传统的ECMP/流控/网络监控不再适用
    • 大模型对网络故障、带宽损失极其敏感

传统网络尽力而为,对应用是黑盒,如果能网络适应应用,那么就可以获得一个白盒的视角。阿里目前自研交换机差不多覆盖了60-70%,约10w台

交换机芯片大部分供货来自博通

NCCL开源库有很多问题,自研ACCL库

拥塞控制HCPP方法,选路担保

……

核心竞争力(壁垒性)↑

  • 弱:各种创新技术(paper一发就能被学过去)
  • 中:架构建设与交付的工具/管理;全自动化的交付流程
  • 强:芯片和数据集;芯片生产工艺;数据集清洗

大模型的盈利模式在于结合各种软件吸引用,SaaS,因此推理很重要

  • 如何网络+推理

AI for network management

发展硬核技术,实现能落地的创新