Škálování MoE inference je často omezeno komunikací + KV-cache: jakmile prosadíte expertní paralelismus, dekódování může být ovládáno kolektivy a nerovnováhou, a zpožďující předplňovače mohou zdržet celou EP skupinu.
Nové výsledky komunitních benchmarků pro vLLM wide-EP na multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Trvalé ~2,2k tokenů/s na GPU H200 (oproti dřívějším ~1,5k tokenů/s na GPU)
V příspěvku sdílíme klíčové prvky, které to umožňují:
- Wide-EP ('--enable-expert-parallel') pro DeepSeek-styl MoE + MLA KV efektivitu
- DeepEP all-to-all, Dual-batch Overlap (DBO) a Expert Parallel Load Balancing (EPLB)
- Cesty pro disaagregaci a nasazení předplnění/dekódování přes llm-d, NVIDIA Dynamo a Ray Serve LLM
vLLM poskytuje ještě lepší výkon inference se stejnou GPU platformou.
Za pouhý měsíc jsme spolupracovali s NVIDIA na @nvidia zvýšení maximální propustnosti Blackwell na GPU až o 33 % – což výrazně snížilo náklady na token – a zároveň umožnili ještě vyšší špičkovou rychlost pro nejcitlivější latenci případy použití díky hluboké integraci a spolupráci s PyTorch.
🎉Gratulujeme týmu @Zai_org k uvedení GLM-4.6V a GLM-4.6V-Flash — přičemž day-0 poskytuje podporu ve vLLM Recipes pro týmy, které je chtějí provozovat na svých vlastních GPU.
GLM-4.6V se zaměřuje na vysoce kvalitní multimodální uvažování s dlouhým kontextem a nativním voláním nástrojů/funkcí, zatímco GLM-4.6V-Flash je varianta 9B laděná pro nasazení s nižší latencí a menší kapacitou; náš nový vLLM Recipe přináší připravené konfigurace, multi-GPU návody a produkčně orientované výchozí nastavení.
Pokud vytváříte inferenční služby a chcete mít ve svém stacku GLM-4.6V, začněte zde:
Řada GLM-4.6V je zde🚀
- GLM-4.6V (106B): vlajkový model vision-language s kontextem 128K
- GLM-4.6V-Flash (9B): ultrarychlá, lehká verze pro lokální a nízkolatenční pracovní zátěže
První nativní volání funkcí v rodině modelů obrazu GLM
Hmotnosti:
Zkuste teď GLM-4.6V:
Rozhraní api:
Technologický blog:
Ceny API (na 1M tokenů):
- GLM-4.6V: vstup 0,6 $ / výstup 0,9 $
- GLM-4.6V-Flash: Zdarma