Skip to content

请教decoding阶段计算浪费的问题 #8

@sleepwalker2017

Description

@sleepwalker2017

目前 decoding 阶段的计算浪费是和什么有关?
是不是kBlockM 这个值决定的?

在 Flash decoding 阶段,我看到的kBlockM = 64,所以计算的浪费是63/64,是这样吗?

好奇为什么不把这个值设置为 16 呢?这样依然可以利用 Tensor Core,而且浪费的算力还少很多。

感谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions