Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Масштабування MoE-виведення часто пов'язане з комунікацією + обмеженням KV-кешу: як тільки ви просуваєте експертний паралелізм, декодування може стати захопленим колективами та дисбалансом, а заповільнення може загальмувати цілу групу EP.
Нові результати спільного бенчмарку для vLLM wide-EP на багатовузловому H200 (Coreweave, Infiniband + ConnectX-7):
- Стійке ~2,2 тис. токенів/с на H200 GPU (зростання порівняно з раніше ~1,5 тис. токенів/с за GPU)
У дописі ми ділимося ключовими елементами, які це забезпечують:
- Wide-EP ('--enable-expert-parallel') для ефективності MoE у стилі DeepSeek + MLA KV
- DeepEP all-to-all, двопакетне перекриття (DBO) та експертне паралельне балансування навантаження (EPLB)
- Шляхи розгортання та розгортання презаповнення/декодування через llm-d, NVIDIA Dynamo та Ray Serve LLM
21
vLLM забезпечує ще більшу продуктивність інференції на тій самій GPU-платформі.
Всього за місяць ми працювали з NVIDIA, щоб збільшити максимальну пропускну здатність Blackwell @nvidia GPU до 33% — суттєво знизивши вартість токена — а також забезпечивши ще вищу пікову швидкість для найбільш затримкових випадків використання завдяки глибокій інтеграції та співпраці з PyTorch.

44
🎉Вітаємо команду @Zai_org з запуском GLM-4.6V та GLM-4.6V-Flash — з підтримкою дня 0 у vLLM Recipes для команд, які хочуть запускати їх на власних GPU.
GLM-4.6V зосереджений на високоякісному мультимодальному мисленні з довгим контекстом і нативним викликом інструментів/функцій, тоді як GLM-4.6V-Flash — це варіант 9B, налаштований на нижчу затримку та менший слід розгортань; наш новий vLLM Recipe пропонує готові до запуску конфігурації, керівництво мульти-GPU та стандартні налаштування, орієнтовані на виробництво.
Якщо ви створюєте сервіси інференції і хочете GLM-4.6V у своєму стеку, почніть тут:


Z.ai8 груд., 20:14
Серія GLM-4.6V вже тут🚀.
- GLM-4.6V (106B): флагманська модель мови зору з контекстом 128K
- GLM-4.6V-Flash (9B): надшвидка, легка версія для локальних і низькозатримкових навантажень
Перший у світі нативний виклик функцій у сімействі моделей зору GLM
Ваги:
Спробуйте GLM-4.6V зараз:
API:
Технічний блог:
Ціноутворення API (за 1M токенів):
- GLM-4.6V: вхід $0.6 / вихід $0.9
- GLM-4.6V-Flash: Безкоштовний

219
Найкращі
Рейтинг
Вибране
