一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

MoE推理的扩展通常受限于通信 + KV缓存：一旦你推动专家并行，解码可能会被集体操作和不平衡所主导，而预填充的滞后者可能会拖慢整个EP组。关于在多节点H200（Coreweave，Infiniband + ConnectX-7）上进行vLLM宽专家并行的新社区基准结果： - 每个H200 GPU持续约2.2k tokens/s（比之前的每个GPU约1.5k tokens/s有所提升）在这篇文章中，我们分享了实现这一目标的关键要素： - 宽专家并行（`--enable-expert-parallel`）用于DeepSeek风格的MoE + MLA KV效率 - DeepEP全到全，双批次重叠（DBO）和专家并行负载均衡（EPLB） - 通过llm-d、NVIDIA Dynamo和Ray Serve LLM实现预填充/解码的分离和部署路径