Skalering av MoE-inferens er ofte begrenset til kommunikasjon + KV-cache: når du først presser ekspert-parallellisme, kan dekoding bli dominert av kollektiver og ubalanse, og prefill-gjensølere kan stanse en hel EP-gruppe.
Nye fellesskapsbenchmarkresultater for vLLM wide-EP på multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Vedvarende ~2,2k tokens/s per H200 GPU (opp fra tidligere ~1,5k tokens/s per GPU)
I innlegget deler vi de viktigste delene som muliggjør dette:
- Wide-EP ('--enable-expert-parallel') for DeepSeek-stil MoE + MLA KV-effektivitet
- DeepEP all-to-all, Dual-batch Overlap (DBO) og Expert Parallel Load Balancing (EPLB)
- Prefill/Dekoding av disaggregering og distribusjonsveier via LLM-D, NVIDIA Dynamo og Ray Serve LLM
vLLM leverer enda mer inferensytelse med samme GPU-plattform.
På bare én måned har vi samarbeidet med NVIDIA for å øke Blackwells maksimale gjennomstrømning per GPU med opptil 33 % @nvidia – noe som reduserer kostnaden per token betydelig – samtidig som vi muliggjør enda høyere topphastighet for de mest latensfølsomme bruksområdene, drevet av dyp PyTorch-integrasjon og samarbeid.
🎉Gratulerer til @Zai_org-teamet med lanseringen av GLM-4.6V og GLM-4.6V-Flash — med day-0 serveringsstøtte i vLLM-oppskrifter for team som ønsker å kjøre dem på sine egne GPU-er.
GLM-4.6V fokuserer på høykvalitets multimodal resonnement med lang kontekst og native verktøy-/funksjonskall, mens GLM-4.6V-Flash er en 9B-variant tilpasset lavere latens og mindre distribusjon; vår nye vLLM-oppskrift leverer ferdige konfigurasjoner, multi-GPU-veiledning og produksjonsorienterte standardinnstillinger.
Hvis du bygger inferenstjenester og ønsker GLM-4.6V i stacken din, start her:
GLM-4.6V Series is here🚀
- GLM-4.6V (106B): flagship vision-language model with 128K context
- GLM-4.6V-Flash (9B): ultra-fast, lightweight version for local and low-latency workloads
First-ever native Function Calling in the GLM vision model family
Weights:
Try GLM-4.6V now:
API:
Tech Blog:
API Pricing (per 1M tokens):
- GLM-4.6V: $0.6 input / $0.9 output
- GLM-4.6V-Flash: Free