MoE推理的扩展通常受限于通信 + KV缓存:一旦你推动专家并行,解码可能会被集体操作和不平衡所主导,而预填充的滞后者可能会拖慢整个EP组。 关于在多节点H200(Coreweave,Infiniband + ConnectX-7)上进行vLLM宽专家并行的新社区基准结果: - 每个H200 GPU持续约2.2k tokens/s(比之前的每个GPU约1.5k tokens/s有所提升) 在这篇文章中,我们分享了实现这一目标的关键要素: - 宽专家并行(`--enable-expert-parallel`)用于DeepSeek风格的MoE + MLA KV效率 - DeepEP全到全,双批次重叠(DBO)和专家并行负载均衡(EPLB) - 通过llm-d、NVIDIA Dynamo和Ray Serve LLM实现预填充/解码的分离和部署路径