Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Škálování MoE inference je často omezeno komunikací + KV-cache: jakmile prosadíte expertní paralelismus, dekódování může být ovládáno kolektivy a nerovnováhou, a zpožďující předplňovače mohou zdržet celou EP skupinu.
Nové výsledky komunitních benchmarků pro vLLM wide-EP na multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Trvalé ~2,2k tokenů/s na GPU H200 (oproti dřívějším ~1,5k tokenů/s na GPU)
V příspěvku sdílíme klíčové prvky, které to umožňují:
- Wide-EP ('--enable-expert-parallel') pro DeepSeek-styl MoE + MLA KV efektivitu
- DeepEP all-to-all, Dual-batch Overlap (DBO) a Expert Parallel Load Balancing (EPLB)
- Cesty pro disaagregaci a nasazení předplnění/dekódování přes llm-d, NVIDIA Dynamo a Ray Serve LLM
Top
Hodnocení
Oblíbené
