Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Penskalaan inferensi MoE seringkali berupa komunikasi + KV-cache terikat: setelah Anda mendorong paralelisme ahli, dekode dapat didominasi oleh kolektif dan ketidakseimbangan, dan pengisian sebelumnya dapat menghentikan seluruh grup EP.
Hasil benchmark komunitas baru untuk vLLM wide-EP pada multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Berkelanjutan ~2,2 ribu token/dtk per GPU H200 (naik dari sebelumnya ~1,5 ribu token/dtk per GPU)
Dalam postingan kami membagikan bagian-bagian penting yang memungkinkan ini:
- Wide-EP ('--enable-expert-parallel') untuk efisiensi MoE + MLA KV gaya DeepSeek
- DeepEP all-to-all, Dual-batch Overlap (DBO), dan Expert Parallel Load Balancing (EPLB)
- Jalur pemisahan dan penerapan pra-isi/dekode melalui llm-d, NVIDIA Dynamo, dan Ray Serve LLM
26
vLLM memberikan lebih banyak performa inferensi dengan platform GPU yang sama.
Hanya dalam 1 bulan, kami telah bekerja sama dengan NVIDIA untuk meningkatkan throughput maksimum Blackwell @nvidia per GPU hingga 33% -- secara signifikan mengurangi biaya per token -- sekaligus memungkinkan kecepatan puncak yang lebih tinggi untuk kasus penggunaan yang paling sensitif terhadap latensi yang didukung oleh integrasi dan kolaborasi PyTorch yang mendalam.

54
🎉Selamat kepada tim @Zai_org atas peluncuran GLM-4.6V dan GLM-4.6V-Flash — dengan dukungan penyajian hari 0 di Resep vLLM untuk tim yang ingin menjalankannya di GPU mereka sendiri.
GLM-4.6V berfokus pada penalaran multimodal berkualitas tinggi dengan konteks panjang dan panggilan alat/fungsi asli, sedangkan GLM-4.6V-Flash adalah varian 9B yang disetel untuk latensi yang lebih rendah dan penerapan jejak yang lebih kecil; Resep vLLM baru kami mengirimkan konfigurasi siap jalan, panduan multi-GPU, dan default yang berpikiran produksi.
Jika Anda membangun layanan inferensi dan menginginkan GLM-4.6V di tumpukan Anda, mulailah di sini:


Z.ai8 Des, 20.14
Seri GLM-4.6V ada di sini🚀
- GLM-4.6V (106B): model bahasa penglihatan unggulan dengan konteks 128K
- GLM-4.6V-Flash (9B): versi ultra-cepat dan ringan untuk beban kerja lokal dan latensi rendah
Panggilan Fungsi asli pertama dalam keluarga model visi GLM
Bobot:
Coba GLM-4.6V sekarang:
API:
Blog Teknologi:
Harga API (per 1 juta token):
- GLM-4.6V: Masukan 0,6 USD / Keluaran 0,9 USD
- GLM-4.6V-Flash: Gratis

225
Teratas
Peringkat
Favorit
