IT之家 11 月 28 日音书,月之暗面 Kimi 和清华大学 MADSys 施行室 2024 年 6 月谀媚发布了 Kimi 底层的 Mooncake 推理系统贪图决策。该系统基于以 KVCache 为中心的 PD 离别和以存换算架构,提高了推理微辞量。
近日,为了进一步加快该期间框架的愚弄与抓行,月之暗面 Kimi 和清华大学 MADSys 施行室谀媚 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等共同发布开源神气 Mooncake,共建以 KVCache 为中心的大模子推理架构。
11 月 28 日,Mooncake 期间框架已开源上线,IT之家附地址如下:
https://github.com/kvcache-ai/Mooncake
据先容,Mooncake 开源神气从论文延长,以超大鸿沟 KVCache 缓存池为中心,通过以存换算的立异理念大幅度减少算力支出,提高了推理微辞量。
本次开源将接受分阶段的格式,迟缓开源高性能 KVCache 多级缓存 Mooncake Store 的完毕,同期针对种种推理引擎和底层存储 / 传输资源进行兼容。其中传输引擎 Transfer Engine 部分当今照旧在 GitHub 宇宙开源。
Mooncake 开源神气的最终主义是,为大模子时期打造一种新式高性能内存语义存储的圭表接口,并提供参考完毕决策。
Mooncake 推理系统架构图足球投注app