Felicitări lui @Alibaba_Qwen pentru lansarea Qwen-Image-2512! 🎉
Suntem încântați să anunțăm suport pentru Day-0 în vLLM-Omni. Acum puteți servi imediat acest model de imagine open-source SOTA cu arhitectura noastră optimizată în pipeline.
Citește mai mult:
👇 Urmărește-l rulând mai jos:
🎁 Un cadou de Anul Nou de la Qwen — Qwen-Image-2512 este aici.
🚀 Upgrade-ul nostru din decembrie către Qwen-Image, chiar la timp pentru Anul Nou.
✨ Ce mai e nou:
• Oameni mai realiști — un "aspect AI" redus dramatic, detalii faciale mai bogate
• Texturi naturale mai fine — peisaje mai ascuțite, apă, blană și materiale
• Redare a textului mai puternică — un layout mai bun, o acuratețe mai mare în compoziția text–imagine
🏆 Testat în 10.000+ runde oarbe pe AI Arena, Qwen-Image-2512 se clasează ca cel mai puternic model de imagine open-source, rămânând totodată competitiv cu sistemele closed-source.
👉 Încearcă-l acum în Qwen Chat:
🤗 Față de îmbrățișare:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Demonstrație cu fața îmbrățișată:
📦 Demonstrație ModelScope:
✨API:
🎆 Începe noul an cu imagini mai bune.
Scalarea inferenței MoE este adesea comunicare + KV-cache bound: odată ce împingi paralelismul experților, decodarea poate deveni dominată de colective și dezechilibru, iar cei care pre-umplu pot bloca un întreg grup EP.
Rezultate noi ale benchmark-ului comunității pentru vLLM wide-EP pe H200 multi-nod (Coreweave, Infiniband + ConnectX-7):
- Susținut ~2.2k tokens/s per GPU H200 (în creștere față de ~1.5k tokens/s pe GPU) anterior
În postare împărtășim elementele cheie care permit acest lucru:
- Wide-EP ("--enable-expert-parallel") pentru eficiența MoE în stil DeepSeek + MLA KV
- DeepEP all-to-all, Dual-batch Overlap (DBO) și Expert Parallel Load Balancing (EPLB)
- Căi de dezagregare și implementare prefill/decod prin llm-d, NVIDIA Dynamo și Ray Serve LLM
vLLM oferă o performanță de inferență și mai bună cu aceeași platformă GPU.
În doar 1 lună, am colaborat cu NVIDIA pentru a crește throughput-ul maxim @nvidia Blackwell pe GPU cu până la 33% – reducând semnificativ costul per token – permițând totodată o viteză de vârf și mai mare pentru cele mai sensibile cazuri de utilizare la latență, susținute de integrare și colaborare profundă cu PyTorch.