Speculative Decoding推理加速入门笔记

less than 1 minute read

Published: August 15, 2025

投机解码（Speculative Decoding，SD）是一种无损的大模型推理加速技术。在普通的decoding过程中，模型每轮推理只处理一个token的计算，却每次都需要拿到所有历史上下文的kv cache来做attention，导致存在巨大的访存瓶颈。而SD则在decoding阶段也让模型能一次并行处理多个token，从而大幅提升计算访存比，提高了硬件计算利用率。同时在理论上可以保证其输出结果无损，在合适的配置下可以拿到“免费”的加速。