Магазин DApp | Центр Web3 для подій та ігор | OKX Гаманець

Актуальні теми

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+4,99%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

vLLM

vLLM

vLLM19 груд., 00:45

Масштабування MoE-виведення часто пов'язане з комунікацією + обмеженням KV-кешу: як тільки ви просуваєте експертний паралелізм, декодування може стати захопленим колективами та дисбалансом, а заповільнення може загальмувати цілу групу EP. Нові результати спільного бенчмарку для vLLM wide-EP на багатовузловому H200 (Coreweave, Infiniband + ConnectX-7): - Стійке ~2,2 тис. токенів/с на H200 GPU (зростання порівняно з раніше ~1,5 тис. токенів/с за GPU) У дописі ми ділимося ключовими елементами, які це забезпечують: - Wide-EP ('--enable-expert-parallel') для ефективності MoE у стилі DeepSeek + MLA KV - DeepEP all-to-all, двопакетне перекриття (DBO) та експертне паралельне балансування навантаження (EPLB) - Шляхи розгортання та розгортання презаповнення/декодування через llm-d, NVIDIA Dynamo та Ray Serve LLM

21

vLLM

vLLM18 груд., 08:29

vLLM забезпечує ще більшу продуктивність інференції на тій самій GPU-платформі. Всього за місяць ми працювали з NVIDIA, щоб збільшити максимальну пропускну здатність Blackwell @nvidia GPU до 33% — суттєво знизивши вартість токена — а також забезпечивши ще вищу пікову швидкість для найбільш затримкових випадків використання завдяки глибокій інтеграції та співпраці з PyTorch.

44

vLLM

vLLM8 груд., 21:18

🎉Вітаємо команду @Zai_org з запуском GLM-4.6V та GLM-4.6V-Flash — з підтримкою дня 0 у vLLM Recipes для команд, які хочуть запускати їх на власних GPU. GLM-4.6V зосереджений на високоякісному мультимодальному мисленні з довгим контекстом і нативним викликом інструментів/функцій, тоді як GLM-4.6V-Flash — це варіант 9B, налаштований на нижчу затримку та менший слід розгортань; наш новий vLLM Recipe пропонує готові до запуску конфігурації, керівництво мульти-GPU та стандартні налаштування, орієнтовані на виробництво. Якщо ви створюєте сервіси інференції і хочете GLM-4.6V у своєму стеку, почніть тут:

Z.ai

Z.ai8 груд., 20:14

Серія GLM-4.6V вже тут🚀. - GLM-4.6V (106B): флагманська модель мови зору з контекстом 128K - GLM-4.6V-Flash (9B): надшвидка, легка версія для локальних і низькозатримкових навантажень Перший у світі нативний виклик функцій у сімействі моделей зору GLM Ваги: Спробуйте GLM-4.6V зараз: API: Технічний блог: Ціноутворення API (за 1M токенів): - GLM-4.6V: вхід $0.6 / вихід $0.9 - GLM-4.6V-Flash: Безкоштовний

219

Найкращі

Рейтинг

Вибране

©2017 - 2025 WEB3.OKX.COM

Українська 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Більше про OKX Web3

Завантажити Академія Про нас Вакансії Зв’яжіться з нами Умови обслуговування Повідомлення про конфіденційність X (колишня назва — Twitter)

Продукт

Інформаційна панель гаманця Своп Ринок Earn Дізнатися більше Створити Оглядач Безпека

Підтримка

Центр підтримки Захист від фішингу Оголошення Графік комісій у DEX Підключитися з OKX Гаманець Bitcoin Гаманець Ethereum Гаманець Solana