Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die Skalierung der MoE-Inferenz ist oft durch Kommunikation + KV-Cache begrenzt: Sobald Sie die Expertenparallelität vorantreiben, kann das Decodieren von Kollektiven und Ungleichgewichten dominiert werden, und Prefill-Stragglers können eine gesamte EP-Gruppe zum Stillstand bringen.
Neue Benchmark-Ergebnisse der Community für vLLM Wide-EP auf Multi-Node H200 (Coreweave, Infiniband + ConnectX-7):
- Nachhaltige ~2,2k Tokens/s pro H200 GPU (im Vergleich zu früheren ~1,5k Tokens/s pro GPU)
In dem Beitrag teilen wir die Schlüsselfaktoren, die dies ermöglichen:
- Wide-EP (`--enable-expert-parallel`) für DeepSeek-Style MoE + MLA KV-Effizienz
- DeepEP All-to-All, Dual-Batch-Überlappung (DBO) und Expert Parallel Load Balancing (EPLB)
- Prefill/Decode-Dissaggregation und Bereitstellungspfade über llm-d, NVIDIA Dynamo und Ray Serve LLM
Top
Ranking
Favoriten
