一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

#

Bonk 生态迷因币展现强韧势头

#

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

LAUNCHCOIN-1.53%

#

Solana 新代币发射平台 Boop.Fun 风头正劲

header

vLLM

vLLM

vLLM12月19日 00:45

MoE推理的扩展通常受限于通信 + KV缓存：一旦你推动专家并行，解码可能会被集体操作和不平衡所主导，而预填充的滞后者可能会拖慢整个EP组。关于在多节点H200（Coreweave，Infiniband + ConnectX-7）上进行vLLM宽专家并行的新社区基准结果： - 每个H200 GPU持续约2.2k tokens/s（比之前的每个GPU约1.5k tokens/s有所提升）在这篇文章中，我们分享了实现这一目标的关键要素： - 宽专家并行（`--enable-expert-parallel`）用于DeepSeek风格的MoE + MLA KV效率 - DeepEP全到全，双批次重叠（DBO）和专家并行负载均衡（EPLB） - 通过llm-d、NVIDIA Dynamo和Ray Serve LLM实现预填充/解码的分离和部署路径

33

vLLM

vLLM12月18日 08:29

vLLM 在相同的 GPU 平台上提供了更高的推理性能。仅在一个月内，我们与 NVIDIA 合作，将 @nvidia Blackwell 每个 GPU 的最大吞吐量提高了多达 33% -- 显著降低了每个 token 的成本 -- 同时还为最敏感延迟的用例提供了更高的峰值速度，这得益于深度 PyTorch 的集成和合作。

69

vLLM

vLLM12月8日 21:18

🎉恭喜 @Zai_org 团队推出 GLM-4.6V 和 GLM-4.6V-Flash —— 在 vLLM Recipes 中为希望在自己的 GPU 上运行它们的团队提供了零日服务支持。 GLM-4.6V 专注于高质量的多模态推理，具有长上下文和原生工具/函数调用，而 GLM-4.6V-Flash 是一个 9B 变体，经过调优以实现更低的延迟和更小的占用；我们的新 vLLM Recipe 提供了即用型配置、多 GPU 指导和以生产为导向的默认设置。如果您正在构建推理服务并希望在您的技术栈中使用 GLM-4.6V，请从这里开始：

Z.ai

Z.ai12月8日 20:14

GLM-4.6V系列来了🚀 - GLM-4.6V (106B)：旗舰视觉语言模型，具有128K上下文 - GLM-4.6V-Flash (9B)：超快、轻量级版本，适用于本地和低延迟工作负载 GLM视觉模型系列首次原生函数调用权重：立即尝试GLM-4.6V： API：技术博客： API定价（每百万个令牌）： - GLM-4.6V：$0.6 输入 / $0.9 输出 - GLM-4.6V-Flash：免费

240

热门

排行

收藏

©2017 - 2025 WEB3.OKX.COM

简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

关于 OKX Wallet

下载学院关于我们就业机会联系我们服务条款隐私政策 X (原推特)

产品

行情币币兑换市场赚币发现开发者中心浏览器安全

用户支持

帮助中心官方渠道验证公告 DEX 费率标准加入社群比特币钱包以太坊钱包 Solana 钱包