Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La scalabilità dell'inferenza MoE è spesso limitata dalla comunicazione e dal KV-cache: una volta che si spinge il parallelismo degli esperti, la decodifica può essere dominata da collettive e squilibri, e i ritardi nel prefill possono bloccare un intero gruppo EP.
Nuovi risultati di benchmark della comunità per vLLM wide-EP su multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Sostenuto ~2.2k token/s per GPU H200 (in aumento rispetto ai precedenti ~1.5k token/s per GPU)
Nel post condividiamo i pezzi chiave che abilitano questo:
- Wide-EP (`--enable-expert-parallel`) per l'efficienza MoE in stile DeepSeek + MLA KV
- DeepEP all-to-all, sovrapposizione a doppio batch (DBO) e bilanciamento del carico parallelo degli esperti (EPLB)
- Disaggregazione e percorsi di distribuzione Prefill/Decode tramite llm-d, NVIDIA Dynamo e Ray Serve LLM
Principali
Ranking
Preferiti
