跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+0.32%
USELESS
-1.92%
IKUN
+4.09%
gib
-1.98%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.66%
ALON
+0.51%
LAUNCHCOIN
-1.53%
GOONC
-1.23%
KLED
+3.21%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.37%
Boopa
+0.03%
PORK
+2.15%
主页
vLLM
vLLM
12月19日 00:45
MoE推理的扩展通常受限于通信 + KV缓存:一旦你推动专家并行,解码可能会被集体操作和不平衡所主导,而预填充的滞后者可能会拖慢整个EP组。 关于在多节点H200(Coreweave,Infiniband + ConnectX-7)上进行vLLM宽专家并行的新社区基准结果: - 每个H200 GPU持续约2.2k tokens/s(比之前的每个GPU约1.5k tokens/s有所提升) 在这篇文章中,我们分享了实现这一目标的关键要素: - 宽专家并行(`--enable-expert-parallel`)用于DeepSeek风格的MoE + MLA KV效率 - DeepEP全到全,双批次重叠(DBO)和专家并行负载均衡(EPLB) - 通过llm-d、NVIDIA Dynamo和Ray Serve LLM实现预填充/解码的分离和部署路径
33
vLLM
12月18日 08:29
vLLM 在相同的 GPU 平台上提供了更高的推理性能。 仅在一个月内,我们与 NVIDIA 合作,将 @nvidia Blackwell 每个 GPU 的最大吞吐量提高了多达 33% -- 显著降低了每个 token 的成本 -- 同时还为最敏感延迟的用例提供了更高的峰值速度,这得益于深度 PyTorch 的集成和合作。
69
vLLM
12月8日 21:18
🎉恭喜 @Zai_org 团队推出 GLM-4.6V 和 GLM-4.6V-Flash —— 在 vLLM Recipes 中为希望在自己的 GPU 上运行它们的团队提供了零日服务支持。 GLM-4.6V 专注于高质量的多模态推理,具有长上下文和原生工具/函数调用,而 GLM-4.6V-Flash 是一个 9B 变体,经过调优以实现更低的延迟和更小的占用;我们的新 vLLM Recipe 提供了即用型配置、多 GPU 指导和以生产为导向的默认设置。 如果您正在构建推理服务并希望在您的技术栈中使用 GLM-4.6V,请从这里开始:
Z.ai
12月8日 20:14
GLM-4.6V系列来了🚀 - GLM-4.6V (106B):旗舰视觉语言模型,具有128K上下文 - GLM-4.6V-Flash (9B):超快、轻量级版本,适用于本地和低延迟工作负载 GLM视觉模型系列首次原生函数调用 权重: 立即尝试GLM-4.6V: API: 技术博客: API定价(每百万个令牌): - GLM-4.6V:$0.6 输入 / $0.9 输出 - GLM-4.6V-Flash:免费
240
热门
排行
收藏