热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
MoE推理的扩展通常受限于通信 + KV缓存:一旦你推动专家并行,解码可能会被集体操作和不平衡所主导,而预填充的滞后者可能会拖慢整个EP组。
关于在多节点H200(Coreweave,Infiniband + ConnectX-7)上进行vLLM宽专家并行的新社区基准结果:
- 每个H200 GPU持续约2.2k tokens/s(比之前的每个GPU约1.5k tokens/s有所提升)
在这篇文章中,我们分享了实现这一目标的关键要素:
- 宽专家并行(`--enable-expert-parallel`)用于DeepSeek风格的MoE + MLA KV效率
- DeepEP全到全,双批次重叠(DBO)和专家并行负载均衡(EPLB)
- 通过llm-d、NVIDIA Dynamo和Ray Serve LLM实现预填充/解码的分离和部署路径
热门
排行
收藏
