[Kernel] optimize moe_align_block_size for cuda graph and large num_experts (e.g. DeepSeek-V3)#12222

Merged

simon-mo merged 7 commits intovllm-project:mainfrom jinzhen-lin:optimize_moe_align_block_size

Jan 21, 2025

+58-37