Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Skalering av MoE-inferens er ofte begrenset til kommunikasjon + KV-cache: når du først presser ekspert-parallellisme, kan dekoding bli dominert av kollektiver og ubalanse, og prefill-gjensølere kan stanse en hel EP-gruppe.
Nye fellesskapsbenchmarkresultater for vLLM wide-EP på multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Vedvarende ~2,2k tokens/s per H200 GPU (opp fra tidligere ~1,5k tokens/s per GPU)
I innlegget deler vi de viktigste delene som muliggjør dette:
- Wide-EP ('--enable-expert-parallel') for DeepSeek-stil MoE + MLA KV-effektivitet
- DeepEP all-to-all, Dual-batch Overlap (DBO) og Expert Parallel Load Balancing (EPLB)
- Prefill/Dekoding av disaggregering og distribusjonsveier via LLM-D, NVIDIA Dynamo og Ray Serve LLM
Topp
Rangering
Favoritter
