Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La inferencia de MoE escalable suele ser comunicación + KV-cache bound: una vez que se impulsa el paralelismo experto, la decodificación puede quedar dominada por colectivos y desequilibrios, y los rezagados de prefill pueden estancar a todo un grupo EP.
Nuevos resultados de benchmarks comunitarios para vLLM wide-EP en H200 multinodo (Coreweave, Infiniband + ConnectX-7):
- Sostenido ~2.200 tokens/s por GPU H200 (frente a ~1.5k tokens/s por GPU anteriores)
En la publicación compartimos las piezas clave que lo permiten:
- Wide-EP ('--enable-expert-parallel') para eficiencia de MoE estilo DeepSeek + MLA KV
- DeepEP all-to-all, Superposición de Doble Batch (DBO) y Balanceo de Carga Paralelo Experto (EPLB)
- Rutas de prerelleno/desagregación y despliegue mediante llm-d, NVIDIA Dynamo y Ray Serve LLM
Populares
Ranking
Favoritas
