请教decoding阶段计算浪费的问题

目前 decoding 阶段的计算浪费是和什么有关？
是不是`kBlockM` 这个值决定的？

在 Flash decoding 阶段，我看到的`kBlockM = 64`，所以计算的浪费是`63/64`，是这样吗？

好奇为什么不把这个值设置为 16 呢？这样依然可以利用 Tensor Core，而且浪费的算力还少很多。

感谢！