La scalabilità dell'inferenza MoE è spesso limitata dalla comunicazione e dal KV-cache: una volta che si spinge il parallelismo degli esperti, la decodifica può essere dominata da collettive e squilibri, e i ritardi nel prefill possono bloccare un intero gruppo EP. Nuovi risultati di benchmark della comunità per vLLM wide-EP su multi-node H200 (Coreweave, Infiniband + ConnectX-7): - Sostenuto ~2.2k token/s per GPU H200 (in aumento rispetto ai precedenti ~1.5k token/s per GPU) Nel post condividiamo i pezzi chiave che abilitano questo: - Wide-EP (`--enable-expert-parallel`) per l'efficienza MoE in stile DeepSeek + MLA KV - DeepEP all-to-all, sovrapposizione a doppio batch (DBO) e bilanciamento del carico parallelo degli esperti (EPLB) - Disaggregazione e percorsi di distribuzione Prefill/Decode tramite llm-d, NVIDIA Dynamo e Ray Serve LLM