作者您好,非常感谢您分享这个工作!我尝试使用distilled模型推理,V2V模式,直接在40GB A800上跑报错OOM
然后加上了low vram参数
--enable_low_vram_mode
--group_offloading_type "leaf_level"
看到代码打印出来 Max memory: 5.709 GB,但实际查看nvitop显示的实时显存消耗是 22GB,请问这个差异是为什么呢?另外推理速度是1.8s/it,每段3步去噪则总共需要~6s/33帧,与论文中的19.5 FPS相去甚远。请问下,你们提到的19.5 FPS是指33帧除以3步总推理时间吗?(而不是latency的倒数)
作者您好,非常感谢您分享这个工作!我尝试使用distilled模型推理,V2V模式,直接在40GB A800上跑报错OOM
然后加上了low vram参数
--enable_low_vram_mode
--group_offloading_type "leaf_level"
看到代码打印出来 Max memory: 5.709 GB,但实际查看nvitop显示的实时显存消耗是 22GB,请问这个差异是为什么呢?另外推理速度是1.8s/it,每段3步去噪则总共需要~6s/33帧,与论文中的19.5 FPS相去甚远。请问下,你们提到的19.5 FPS是指33帧除以3步总推理时间吗?(而不是latency的倒数)