Andrej Karpathy：大模型有内存限制，这个妙招挺好用

50:00

LLMs: A Systematic Approach Beyond Single-Point Solutions

符尧，爱丁堡大学的博士生，指出当前LLM（大型语言模型）并非单一突破的技术，而是由多个关键组件协同工作的复杂系统。他提到，推测性解码是理解LLM系统视角的一种良好示例。

Eric Jang，人形机器人公司1X Technologies的AI副总裁，对此进行了补充说明，认为Andrej Karpathy在其推文中对推测性执行进行了很好的解释。Karpathy强调，这一优化技术允许计算机系统利用当前信息，提前执行可能在未来使用的指令，即使这些指令最终可能被取消。这一过程通过减少计算资源的浪费，提高了系统的效率。

Speculative Decoding是一种用于加速大型模型推理的优化技术。该方法通常涉及到两个模型：一个为目标模型（大模型），另一个是较小的近似模型（小模型）。首先，小模型会预先解码多个令牌进行猜测，并将这些猜测作为单个批次输入到大模型中进行验证。这种方法的效果与直接使用大模型解码相同，但在处理速度上有所提升，因为它依赖于小模型的快速计算能力，减少了内存访问的需求。

Karpathy的推文解析：

Karpathy提出，对于LLMs而言，推测性执行是一种高效的时间优化策略。关键在于，单个输入令牌的处理时间和批处理K个输入令牌的时间相等。这种现象发生的原因是采样过程受到内存限制：模型运行中的大量工作集中在从VRAM读取转换器权重到片上缓存进行处理。因此，如果可以一次处理一批输入向量，效率会显著提高。

然而，由于每个N个令牌的处理依赖于前一步的结果，整个过程呈现串行依赖性，导致了线性顺序执行。聪明的做法是使用一个经济实惠的小型草稿模型预先生成多个令牌候选序列。然后，将这些输入组合到大模型中进行批量处理，速度接近单个令牌处理。之后，按照模型和草稿模型预测的logits遍历模型和候选令牌。一致的草稿序列可以直接跳到下一个令牌，而存在分歧的情况则需要回退并承担一定的额外成本。

这种技术之所以有效，是因为在LLM的推理过程中，内存限制是关键因素，特别是在批大小设置为1的情况下，大多数本地LLM用例都属于这种情况。大多数令牌相对简单，这意味着许多草稿序列会被接受，即使是由较小的草稿模型生成的。

LLMs: A Systematic Approach Beyond Single-Point Solutions

相关参考资料：