Question about inference speed and VRAM used 推理速度及显存打印与实际不符问题

作者您好，非常感谢您分享这个工作！我尝试使用distilled模型推理，V2V模式，直接在40GB A800上跑报错OOM
然后加上了low vram参数
--enable_low_vram_mode \
--group_offloading_type "leaf_level"
看到代码打印出来 Max memory: 5.709 GB，但实际查看nvitop显示的实时显存消耗是 22GB，请问这个差异是为什么呢？另外推理速度是1.8s/it，每段3步去噪则总共需要~6s/33帧，与论文中的19.5 FPS相去甚远。请问下，你们提到的19.5 FPS是指33帧除以3步总推理时间吗？（而不是latency的倒数）