La inferencia de MoE escalable suele ser comunicación + KV-cache bound: una vez que se impulsa el paralelismo experto, la decodificación puede quedar dominada por colectivos y desequilibrios, y los rezagados de prefill pueden estancar a todo un grupo EP. Nuevos resultados de benchmarks comunitarios para vLLM wide-EP en H200 multinodo (Coreweave, Infiniband + ConnectX-7): - Sostenido ~2.200 tokens/s por GPU H200 (frente a ~1.5k tokens/s por GPU anteriores) En la publicación compartimos las piezas clave que lo permiten: - Wide-EP ('--enable-expert-parallel') para eficiencia de MoE estilo DeepSeek + MLA KV - DeepEP all-to-all, Superposición de Doble Batch (DBO) y Balanceo de Carga Paralelo Experto (EPLB) - Rutas de prerelleno/desagregación y despliegue mediante llm-d, NVIDIA Dynamo y Ray Serve LLM