[DeepSeek][Kernels] MoE sorting - Scatter Gather kernels #1065

lessw2020 · 2025-04-07T05:43:32Z

encapsulating scatter/gather in Cuda kernels. Effectively does the following PyTorch actions but via CUDA:

def pytorch_sort_tokens(topk_ids, x, n_experts):
    """PyTorch implementation for comparison"""
    with torch.no_grad():
        # [seq_len, n_experts]
        cnts = topk_ids.new_zeros((topk_ids.shape[0], n_experts))
        # Fill 1 to the selected experts
        cnts.scatter_(1, topk_ids, 1)
        tokens_per_expert = cnts.sum(dim=0)
        # Token indices for each expert
        idxs = topk_ids.view(-1).argsort()
        sorted_tokens_shape = idxs.shape + x.shape[1:]
    sorted_tokens = x[idxs // topk_ids.shape[1]]

    return sorted_tokens, idxs, tokens_per_expert

lessw2020 added 9 commits April 5, 2025 10:02

add moe_kernel_utils (cdiv etc)

d7a1d63

start sorting kernels

30d215b

add sequential exclusive prefix sum kernel

9377070

add parallel prefix sum

0cab60f

add parallel prefix sum, start main wrapper

420e5bf

add main kernels - issue with 1L

90b16a2

matching pytorch results now

121e2a1

build for Hopper

80636e7

improve setup, refine kernel for stability (passes all now)

9a85764

facebook-github-bot added the CLA Signed This label is managed by the Meta Open Source bot. label Apr 7, 2025

~15% faster for k==1

1a20c5b

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[DeepSeek][Kernels] MoE sorting - Scatter Gather kernels #1065

[DeepSeek][Kernels] MoE sorting - Scatter Gather kernels #1065

Uh oh!

lessw2020 commented Apr 7, 2025

Uh oh!

Uh oh!

[DeepSeek][Kernels] MoE sorting - Scatter Gather kernels #1065

Are you sure you want to change the base?

[DeepSeek][Kernels] MoE sorting - Scatter Gather kernels #1065

Uh oh!

Conversation

lessw2020 commented Apr 7, 2025

Uh oh!

Uh oh!