Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Penskalaan inferensi MoE seringkali berupa komunikasi + KV-cache terikat: setelah Anda mendorong paralelisme ahli, dekode dapat didominasi oleh kolektif dan ketidakseimbangan, dan pengisian sebelumnya dapat menghentikan seluruh grup EP.
Hasil benchmark komunitas baru untuk vLLM wide-EP pada multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Berkelanjutan ~2,2 ribu token/dtk per GPU H200 (naik dari sebelumnya ~1,5 ribu token/dtk per GPU)
Dalam postingan kami membagikan bagian-bagian penting yang memungkinkan ini:
- Wide-EP ('--enable-expert-parallel') untuk efisiensi MoE + MLA KV gaya DeepSeek
- DeepEP all-to-all, Dual-batch Overlap (DBO), dan Expert Parallel Load Balancing (EPLB)
- Jalur pemisahan dan penerapan pra-isi/dekode melalui llm-d, NVIDIA Dynamo, dan Ray Serve LLM
Teratas
Peringkat
Favorit
