DApp Store | Web3 Hub for hendelser og spill

Populære emner

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

Skalering av MoE-inferens er ofte begrenset til kommunikasjon + KV-cache: når du først presser ekspert-parallellisme, kan dekoding bli dominert av kollektiver og ubalanse, og prefill-gjensølere kan stanse en hel EP-gruppe. Nye fellesskapsbenchmarkresultater for vLLM wide-EP på multi-node H200 (Coreweave, Infiniband + ConnectX-7): - Vedvarende ~2,2k tokens/s per H200 GPU (opp fra tidligere ~1,5k tokens/s per GPU) I innlegget deler vi de viktigste delene som muliggjør dette: - Wide-EP ('--enable-expert-parallel') for DeepSeek-stil MoE + MLA KV-effektivitet - DeepEP all-to-all, Dual-batch Overlap (DBO) og Expert Parallel Load Balancing (EPLB) - Prefill/Dekoding av disaggregering og distribusjonsveier via LLM-D, NVIDIA Dynamo og Ray Serve LLM

18

vLLM18. des., 08:29

vLLM leverer enda mer inferensytelse med samme GPU-plattform. På bare én måned har vi samarbeidet med NVIDIA for å øke Blackwells maksimale gjennomstrømning per GPU med opptil 33 % @nvidia – noe som reduserer kostnaden per token betydelig – samtidig som vi muliggjør enda høyere topphastighet for de mest latensfølsomme bruksområdene, drevet av dyp PyTorch-integrasjon og samarbeid.

40

vLLM8. des., 21:18

🎉Gratulerer til @Zai_org-teamet med lanseringen av GLM-4.6V og GLM-4.6V-Flash — med day-0 serveringsstøtte i vLLM-oppskrifter for team som ønsker å kjøre dem på sine egne GPU-er. GLM-4.6V fokuserer på høykvalitets multimodal resonnement med lang kontekst og native verktøy-/funksjonskall, mens GLM-4.6V-Flash er en 9B-variant tilpasset lavere latens og mindre distribusjon; vår nye vLLM-oppskrift leverer ferdige konfigurasjoner, multi-GPU-veiledning og produksjonsorienterte standardinnstillinger. Hvis du bygger inferenstjenester og ønsker GLM-4.6V i stacken din, start her:

Z.ai8. des., 20:14

GLM-4.6V Series is here🚀 - GLM-4.6V (106B): flagship vision-language model with 128K context - GLM-4.6V-Flash (9B): ultra-fast, lightweight version for local and low-latency workloads First-ever native Function Calling in the GLM vision model family Weights: Try GLM-4.6V now: API: Tech Blog: API Pricing (per 1M tokens): - GLM-4.6V: $0.6 input / $0.9 output - GLM-4.6V-Flash: Free

215

Topp

Rangering

Favoritter

Norsk (bokmål)简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Suomi Svenska Türkçe

More about OKX Wallet

Last ned Lær Om oss Karrierer Kontakt oss Vilkår for bruk Personvernerklæring X (tidligere Twitter)

Product

Tokens Swap Marketplace Earn Discover Build Utforsker Sikkerhet

Støtte

Supportsenter Verifisering av kanal Kunngjøringer DEX-gebyrplan Bli kjent med OKX Bitcoin-lommebok Ethereum-lommebok Solana-lommebok