Die Skalierung der MoE-Inferenz ist oft durch Kommunikation + KV-Cache begrenzt: Sobald Sie die Expertenparallelität vorantreiben, kann das Decodieren von Kollektiven und Ungleichgewichten dominiert werden, und Prefill-Stragglers können eine gesamte EP-Gruppe zum Stillstand bringen. Neue Benchmark-Ergebnisse der Community für vLLM Wide-EP auf Multi-Node H200 (Coreweave, Infiniband + ConnectX-7): - Nachhaltige ~2,2k Tokens/s pro H200 GPU (im Vergleich zu früheren ~1,5k Tokens/s pro GPU) In dem Beitrag teilen wir die Schlüsselfaktoren, die dies ermöglichen: - Wide-EP (`--enable-expert-parallel`) für DeepSeek-Style MoE + MLA KV-Effizienz - DeepEP All-to-All, Dual-Batch-Überlappung (DBO) und Expert Parallel Load Balancing (EPLB) - Prefill/Decode-Dissaggregation und Bereitstellungspfade über llm-d, NVIDIA Dynamo und Ray Serve LLM