Skalering av MoE-inferens er ofte begrenset til kommunikasjon + KV-cache: når du først presser ekspert-parallellisme, kan dekoding bli dominert av kollektiver og ubalanse, og prefill-gjensølere kan stanse en hel EP-gruppe. Nye fellesskapsbenchmarkresultater for vLLM wide-EP på multi-node H200 (Coreweave, Infiniband + ConnectX-7): - Vedvarende ~2,2k tokens/s per H200 GPU (opp fra tidligere ~1,5k tokens/s per GPU) I innlegget deler vi de viktigste delene som muliggjør dette: - Wide-EP ('--enable-expert-parallel') for DeepSeek-stil MoE + MLA KV-effektivitet - DeepEP all-to-all, Dual-batch Overlap (DBO) og Expert Parallel Load Balancing (EPLB) - Prefill/Dekoding av disaggregering og distribusjonsveier via LLM-D, NVIDIA Dynamo og Ray Serve LLM