这是微软再5月刚刚发布的一篇论文提出了一种解码器-解码器架构YOCO,因为只缓存一次KV对,所以可以大量的节省内存。 以前 ...
提出Decoder-Decoder新型架构,名为YOCO(You Only Cache Once)。 YOCO仅缓存一次键值对,可大幅降低GPU内存需求,且保留全局注意力能力。 一张图来看YOCO和标准Transformer的比较。 在处理512K上下文长度时,标准Transformer内存使用是YOCO的6.4倍,预填充延迟是YOCO的30.3倍,而 ...
提出Decoder-Decoder新型架构,名为YOCO(You Only Cache Once)。 YOCO仅缓存一次键值对,可大幅降低GPU内存需求,且保留全局注意力能力。 一张图来看YOCO和标准Transformer的比较。 在处理512K上下文长度时,标准Transformer内存使用是YOCO的6.4倍,预填充延迟是YOCO的30.3倍,而 ...