Speculative Decoding推理加速入门笔记
Published:
投机解码(Speculative Decoding,SD)是一种无损的大模型推理加速技术。在普通的decoding过程中,模型每轮推理只处理一个token的计算,却每次都需要拿到所有历史上下文的kv cache来做attention,导致存在巨大的访存瓶颈。而SD则在decoding阶段也让模型能一次并行处理多个token,从而大幅提升计算访存比,提高了硬件计算利用率。同时在理论上可以保证其输出结果无损,在合适的配置下可以拿到“免费”的加速。
以下为本人入门学习SD的简要笔记,包括对于SD加速本质的理解与分析,以及DeepSeek MTP、Eagle等相关工作的解析。
