DApp Store | Hub Web3 pentru evenimente și jocuri | OKX Wallet

Subiecte populare

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+2,76 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

vLLM

vLLM

vLLM31 dec. 2025

Felicitări lui @Alibaba_Qwen pentru lansarea Qwen-Image-2512! 🎉 Suntem încântați să anunțăm suport pentru Day-0 în vLLM-Omni. Acum puteți servi imediat acest model de imagine open-source SOTA cu arhitectura noastră optimizată în pipeline. Citește mai mult: 👇 Urmărește-l rulând mai jos:

Qwen

Qwen31 dec. 2025

🎁 Un cadou de Anul Nou de la Qwen — Qwen-Image-2512 este aici. 🚀 Upgrade-ul nostru din decembrie către Qwen-Image, chiar la timp pentru Anul Nou. ✨ Ce mai e nou: • Oameni mai realiști — un "aspect AI" redus dramatic, detalii faciale mai bogate • Texturi naturale mai fine — peisaje mai ascuțite, apă, blană și materiale • Redare a textului mai puternică — un layout mai bun, o acuratețe mai mare în compoziția text–imagine 🏆 Testat în 10.000+ runde oarbe pe AI Arena, Qwen-Image-2512 se clasează ca cel mai puternic model de imagine open-source, rămânând totodată competitiv cu sistemele closed-source. 👉 Încearcă-l acum în Qwen Chat: 🤗 Față de îmbrățișare: 📦 ModelScope: 💻 GitHub: 📝 Blog: 🤗 Demonstrație cu fața îmbrățișată: 📦 Demonstrație ModelScope: ✨API: 🎆 Începe noul an cu imagini mai bune.

163

vLLM

vLLM19 dec. 2025

Scalarea inferenței MoE este adesea comunicare + KV-cache bound: odată ce împingi paralelismul experților, decodarea poate deveni dominată de colective și dezechilibru, iar cei care pre-umplu pot bloca un întreg grup EP. Rezultate noi ale benchmark-ului comunității pentru vLLM wide-EP pe H200 multi-nod (Coreweave, Infiniband + ConnectX-7): - Susținut ~2.2k tokens/s per GPU H200 (în creștere față de ~1.5k tokens/s pe GPU) anterior În postare împărtășim elementele cheie care permit acest lucru: - Wide-EP ("--enable-expert-parallel") pentru eficiența MoE în stil DeepSeek + MLA KV - DeepEP all-to-all, Dual-batch Overlap (DBO) și Expert Parallel Load Balancing (EPLB) - Căi de dezagregare și implementare prefill/decod prin llm-d, NVIDIA Dynamo și Ray Serve LLM

343

vLLM

vLLM18 dec. 2025

vLLM oferă o performanță de inferență și mai bună cu aceeași platformă GPU. În doar 1 lună, am colaborat cu NVIDIA pentru a crește throughput-ul maxim @nvidia Blackwell pe GPU cu până la 33% – reducând semnificativ costul per token – permițând totodată o viteză de vârf și mai mare pentru cele mai sensibile cazuri de utilizare la latență, susținute de integrare și colaborare profundă cu PyTorch.

369

Limită superioară

Clasament

Favorite

©2017 - 2026 WEB3.OKX.COM

Română 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Mai multe despre OKX Web3

Descărcați Învățați Despre NOI Cariere Contactați-ne Condiții de utilizare a serviciului Declarație de confidențialitate X (fost Twitter)

Produs

Tablou de bord pentru portofel Schimbați Piață Câștigați Descoperiți Construiți Explorator Securitate

Asistență

Centru de asistență Verificare oficială Anunțuri Program de comisioane DEX Conectare cu OKX Portofel Bitcoin Portofel Ethereum Portofel Solana