Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
La scalabilità dell'inferenza MoE è spesso limitata dalla comunicazione e dal KV-cache: una volta che si spinge il parallelismo degli esperti, la decodifica può essere dominata da collettive e squilibri, e i ritardi nel prefill possono bloccare un intero gruppo EP.
Nuovi risultati di benchmark della comunità per vLLM wide-EP su multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Sostenuto ~2.2k token/s per GPU H200 (in aumento rispetto ai precedenti ~1.5k token/s per GPU)
Nel post condividiamo i pezzi chiave che abilitano questo:
- Wide-EP (`--enable-expert-parallel`) per l'efficienza MoE in stile DeepSeek + MLA KV
- DeepEP all-to-all, sovrapposizione a doppio batch (DBO) e bilanciamento del carico parallelo degli esperti (EPLB)
- Disaggregazione e percorsi di distribuzione Prefill/Decode tramite llm-d, NVIDIA Dynamo e Ray Serve LLM
19
vLLM offre prestazioni di inferenza ancora migliori con la stessa piattaforma GPU.
In solo 1 mese, abbiamo collaborato con NVIDIA per aumentare il throughput massimo di @nvidia Blackwell per GPU fino al 33% -- riducendo significativamente il costo per token -- mentre abilitiamo anche velocità di picco ancora più elevate per i casi d'uso più sensibili alla latenza, grazie all'integrazione profonda di PyTorch e alla collaborazione.

42
🎉Congratulazioni al team di @Zai_org per il lancio di GLM-4.6V e GLM-4.6V-Flash — con supporto per il day-0 in vLLM Recipes per i team che vogliono eseguirli sui propri GPU.
GLM-4.6V si concentra su ragionamenti multimodali di alta qualità con contesto lungo e chiamate a strumenti/funzioni native, mentre GLM-4.6V-Flash è una variante da 9B ottimizzata per una latenza inferiore e distribuzioni a minore impronta; la nostra nuova vLLM Recipe include configurazioni pronte all'uso, guida multi-GPU e impostazioni orientate alla produzione.
Se stai costruendo servizi di inferenza e vuoi GLM-4.6V nel tuo stack, inizia qui:


Z.ai8 dic, 20:14
La serie GLM-4.6V è qui🚀
- GLM-4.6V (106B): modello di punta per visione-linguaggio con contesto di 128K
- GLM-4.6V-Flash (9B): versione ultra-veloce e leggera per carichi di lavoro locali e a bassa latenza
Prima chiamata di funzione nativa nella famiglia di modelli di visione GLM
Pesi:
Prova GLM-4.6V ora:
API:
Blog Tecnico:
Prezzi API (per 1M token):
- GLM-4.6V: $0.6 input / $0.9 output
- GLM-4.6V-Flash: Gratuito

217
Principali
Ranking
Preferiti
