2023-12-14讨论班

Posted on 2023-12-14 Edited on 2023-12-18 In 组会记录

模型侧

系统侧

并行化【iterative infer带来的革新】
- 大模型时代，经验上来看计算量越大，最匹配的语料+参数得到的Loss越好，但是内存/通信开销成为了瓶颈
- 数据并行/张量并行/流水线并行见2023-11-30讨论班
- 传统的CV模型可能只做第一个并行，后两者由于CV网络连接方式多元、模块之间计算量不平衡等问题难以做到，但是大模型由于都是Transformer，做起来就很容易

自回归推理引擎

推理的第一步是把不完整的句子经过prefill转为向量

在batch的过程中仍然有early stop和late arrive等问题，因为是一个词一次迭代，batch中的多个句子最终形态可能词数不一致

iteration-level schedule
prefill以及generate的过程中有一些是request无关的计算，把在这些步骤batch里的数据拼到一起【如果模型对向量中的数据不敏感的话】，在attention这种request有关的东西执行时再拆开

KV cache

Memory Management

GPU借鉴Linux的COW思想