Масштабування MoE-виведення часто пов'язане з комунікацією + обмеженням KV-кешу: як тільки ви просуваєте експертний паралелізм, декодування може стати захопленим колективами та дисбалансом, а заповільнення може загальмувати цілу групу EP. Нові результати спільного бенчмарку для vLLM wide-EP на багатовузловому H200 (Coreweave, Infiniband + ConnectX-7): - Стійке ~2,2 тис. токенів/с на H200 GPU (зростання порівняно з раніше ~1,5 тис. токенів/с за GPU) У дописі ми ділимося ключовими елементами, які це забезпечують: - Wide-EP ('--enable-expert-parallel') для ефективності MoE у стилі DeepSeek + MLA KV - DeepEP all-to-all, двопакетне перекриття (DBO) та експертне паралельне балансування навантаження (EPLB) - Шляхи розгортання та розгортання презаповнення/декодування через llm-d, NVIDIA Dynamo та Ray Serve LLM