Skip to content

Question about inference speed and VRAM used 推理速度及显存打印与实际不符问题 #73

@LeeKeyu

Description

@LeeKeyu

作者您好,非常感谢您分享这个工作!我尝试使用distilled模型推理,V2V模式,直接在40GB A800上跑报错OOM
然后加上了low vram参数
--enable_low_vram_mode
--group_offloading_type "leaf_level"
看到代码打印出来 Max memory: 5.709 GB,但实际查看nvitop显示的实时显存消耗是 22GB,请问这个差异是为什么呢?另外推理速度是1.8s/it,每段3步去噪则总共需要~6s/33帧,与论文中的19.5 FPS相去甚远。请问下,你们提到的19.5 FPS是指33帧除以3步总推理时间吗?(而不是latency的倒数)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions