近日,月之暗面Kimi和清华大学MADSys实验室合作,发布了基于KVCache的大规模模型推理系统Mooncake的设计方案。这一系统通过优化PD分离和存算分离的架构,显著提高了推理吞吐量。
2024年6月,Kimi和清华大学MADSys实验室联合发布了Mooncake的设计方案。Mooncake系统的核心在于KVCache,它通过PD分离和存算分离的架构,大大提升了推理效率。
为了进一步推动Mooncake技术的应用与推广,月之暗面Kimi和清华大学MADSys实验室联合多家公司,如9#AISoft、阿里云、华为存储、面壁智能、趋境科技等,共同发起了开源项目Mooncake。该项目旨在构建一个以KVCache为中心的大模型推理架构。
11月28日,Mooncake技术框架正式开源上线。该项目从学术研究出发,以大规模KVCache缓存池为核心,通过存算分离的理念大幅降低了计算资源消耗,从而提升推理性能。
此次开源将采取分阶段方式进行。首先,将逐步开放高性能KVCache多级缓存Mooncake Store的具体实现。此外,还将针对各种推理引擎和底层存储/传输资源进行兼容。目前,传输引擎Transfer Engine已在GitHub上全球开源。
Mooncake开源项目的最终目标是,为大模型时代打造一种新型高性能内存语义存储标准接口,并提供相应的参考实现方案。这将有助于推动大模型技术的发展和应用。
Mooncake推理系统架构图展示了系统的整体结构和各模块之间的关系。通过这种架构设计,Mooncake能够更好地应对大规模模型推理的需求。