Škálování MoE inference je často omezeno komunikací + KV-cache: jakmile prosadíte expertní paralelismus, dekódování může být ovládáno kolektivy a nerovnováhou, a zpožďující předplňovače mohou zdržet celou EP skupinu. Nové výsledky komunitních benchmarků pro vLLM wide-EP na multi-node H200 (Coreweave, Infiniband + ConnectX-7): - Trvalé ~2,2k tokenů/s na GPU H200 (oproti dřívějším ~1,5k tokenů/s na GPU) V příspěvku sdílíme klíčové prvky, které to umožňují: - Wide-EP ('--enable-expert-parallel') pro DeepSeek-styl MoE + MLA KV efektivitu - DeepEP all-to-all, Dual-batch Overlap (DBO) a Expert Parallel Load Balancing (EPLB) - Cesty pro disaagregaci a nasazení předplnění/dekódování přes llm-d, NVIDIA Dynamo a Ray Serve LLM