Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Масштабування MoE-виведення часто пов'язане з комунікацією + обмеженням KV-кешу: як тільки ви просуваєте експертний паралелізм, декодування може стати захопленим колективами та дисбалансом, а заповільнення може загальмувати цілу групу EP.
Нові результати спільного бенчмарку для vLLM wide-EP на багатовузловому H200 (Coreweave, Infiniband + ConnectX-7):
- Стійке ~2,2 тис. токенів/с на H200 GPU (зростання порівняно з раніше ~1,5 тис. токенів/с за GPU)
У дописі ми ділимося ключовими елементами, які це забезпечують:
- Wide-EP ('--enable-expert-parallel') для ефективності MoE у стилі DeepSeek + MLA KV
- DeepEP all-to-all, двопакетне перекриття (DBO) та експертне паралельне балансування навантаження (EPLB)
- Шляхи розгортання та розгортання презаповнення/декодування через llm-d, NVIDIA Dynamo та Ray Serve LLM
Найкращі
Рейтинг
Вибране
