Penskalaan inferensi MoE seringkali berupa komunikasi + KV-cache terikat: setelah Anda mendorong paralelisme ahli, dekode dapat didominasi oleh kolektif dan ketidakseimbangan, dan pengisian sebelumnya dapat menghentikan seluruh grup EP. Hasil benchmark komunitas baru untuk vLLM wide-EP pada multi-node H200 (Coreweave, Infiniband + ConnectX-7): - Berkelanjutan ~2,2 ribu token/dtk per GPU H200 (naik dari sebelumnya ~1,5 ribu token/dtk per GPU) Dalam postingan kami membagikan bagian-bagian penting yang memungkinkan ini: - Wide-EP ('--enable-expert-parallel') untuk efisiensi MoE + MLA KV gaya DeepSeek - DeepEP all-to-all, Dual-batch Overlap (DBO), dan Expert Parallel Load Balancing (EPLB) - Jalur pemisahan dan penerapan pra-isi/dekode melalui llm-d, NVIDIA Dynamo, dan Ray Serve LLM