LLM 的自回归生成可以分解为两个阶段:Prefill(预填充)处理输入 prompt,Decode(解码)逐个生成输出 token。这两个阶段的计算特性截然不同,理解它们是优化推理的基础。 想象你去一家餐厅点餐。服务员先花一段时间「通读」你写好的整张菜单(Prefill),然后 ...