一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

#

Bonk 生態迷因幣展現強韌勢頭

#

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

LAUNCHCOIN+4.99%

#

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

header

vLLM

vLLM

vLLM12月19日 00:45

擴展 MoE 推理通常受限於通信 + KV 緩存：一旦推動專家並行，解碼可能會受到集體操作和不平衡的主導，而預填充的延遲者可能會使整個 EP 群組停滯。關於在多節點 H200（Coreweave，Infiniband + ConnectX-7）上進行 vLLM 寬 EP 的新社區基準結果： - 每個 H200 GPU 持續約 2.2k tokens/s（較早期的每 GPU 約 1.5k tokens/s 有所上升）在這篇文章中，我們分享了使這一切成為可能的關鍵要素： - 寬 EP (`--enable-expert-parallel`) 用於 DeepSeek 風格的 MoE + MLA KV 效率 - DeepEP 全到全，雙批重疊（DBO）和專家並行負載平衡（EPLB） - 通過 llm-d、NVIDIA Dynamo 和 Ray Serve LLM 進行預填充/解碼的解耦和部署路徑

20

vLLM

vLLM12月18日 08:29

vLLM 在相同的 GPU 平台上提供了更高的推理性能。在短短 1 個月內，我們與 NVIDIA 合作，將 @nvidia Blackwell 每個 GPU 的最大吞吐量提高了多達 33% -- 顯著降低了每個 token 的成本 -- 同時也為最敏感延遲的使用案例啟用了更高的峰值速度，這得益於深度 PyTorch 的整合與合作。

43

vLLM

vLLM12月8日 21:18

🎉恭喜 @Zai_org 團隊推出 GLM-4.6V 和 GLM-4.6V-Flash — 在 vLLM Recipes 中提供日零支援，適合希望在自己的 GPU 上運行的團隊。 GLM-4.6V 專注於高品質的多模態推理，具備長上下文和原生工具/函數調用，而 GLM-4.6V-Flash 是一個針對較低延遲和較小佔用的 9B 變體；我們的新 vLLM Recipe 提供即用型配置、多 GPU 指導和以生產為導向的預設。如果您正在構建推理服務並希望在您的堆疊中使用 GLM-4.6V，請從這裡開始：

Z.ai

Z.ai12月8日 20:14

GLM-4.6V 系列來了🚀 - GLM-4.6V (106B)：旗艦視覺-語言模型，擁有 128K 上下文 - GLM-4.6V-Flash (9B)：超快速、輕量級版本，適用於本地和低延遲工作負載 GLM 視覺模型系列首個原生函數調用權重：立即試用 GLM-4.6V： API：技術部落格： API 價格（每 1M 代幣）： - GLM-4.6V：$0.6 輸入 / $0.9 輸出 - GLM-4.6V-Flash：免費

218

熱門

排行

收藏

©2017 - 2025 WEB3.OKX.COM

繁體中文简体中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

關於 OKX Wallet

下載學院關於我們就業機會聯繫我們服務條款隱私政策 X (原推特)

產品

行情幣幣兌換市場賺幣發現開發者中心瀏覽器安全

用戶支持

幫助中心官方渠道驗證公告 DEX 費率標準加入社群比特幣錢包以太坊錢包 Solana 錢包