Skip to content

Conversation

Susskind115
Copy link

赛道:
T2-2-1:九格-7B单卡推理服务优化
T2-2-2:九格-70B多卡推理服务优化

主要技术点: 优化内存管理机制,无损加速高并发场景下的推理引擎性能表现。

  • 实现适配于InfiniLM的 Paged Attention 机制,支持分页式 KV Cache 管理,无损优化高并发场景下推理引擎的性能。
  • 支持了Infinicore形式的Paged Attention和Paged Caching算子,python测试全部通过且测例丰富完整。
  • 新增智能内存管理系统(Block Manager + Paged KVCache)
  • 将推理代码部分重构为vllm-like的 Python 推理引擎框架icinfer(Infinicore-infer的简称)。
  • 实现prefill-decode独立优化的两阶段批处理调度器,支持三队列Continuous Batching。
  • 支持 KV Cache 复用和智能抢占机制。

性能提升:

  • 每个请求因KVCache动态变化造成的显存碎片控制在block_size内,有效缓解了KVCache动态长度导致的内存碎片问题。
  • 系统推理吞吐量提升至原先的 1.69- 1.87 倍。
  • 多Batch下,我们优化后的框架每输出令牌时间(TPOT)由28.06ms下降为14.96ms,实现了46.7%的无损解码加速。

新增模块:

  • python/icinfer/: 完整的推理引擎框架

@Susskind115
Copy link
Author

Paged Attention InfiniLM性能测试.pdf
补充测试。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant