跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-2.83%
USELESS
+0.62%
IKUN
+5.22%
gib
-1.98%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-0.54%
ALON
-0.17%
LAUNCHCOIN
+4.99%
GOONC
-4.13%
KLED
-2.35%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.09%
Boopa
-0.86%
PORK
+2.15%
主頁
vLLM
vLLM
12月19日 00:45
擴展 MoE 推理通常受限於通信 + KV 緩存:一旦推動專家並行,解碼可能會受到集體操作和不平衡的主導,而預填充的延遲者可能會使整個 EP 群組停滯。 關於在多節點 H200(Coreweave,Infiniband + ConnectX-7)上進行 vLLM 寬 EP 的新社區基準結果: - 每個 H200 GPU 持續約 2.2k tokens/s(較早期的每 GPU 約 1.5k tokens/s 有所上升) 在這篇文章中,我們分享了使這一切成為可能的關鍵要素: - 寬 EP (`--enable-expert-parallel`) 用於 DeepSeek 風格的 MoE + MLA KV 效率 - DeepEP 全到全,雙批重疊(DBO)和專家並行負載平衡(EPLB) - 通過 llm-d、NVIDIA Dynamo 和 Ray Serve LLM 進行預填充/解碼的解耦和部署路徑
20
vLLM
12月18日 08:29
vLLM 在相同的 GPU 平台上提供了更高的推理性能。 在短短 1 個月內,我們與 NVIDIA 合作,將 @nvidia Blackwell 每個 GPU 的最大吞吐量提高了多達 33% -- 顯著降低了每個 token 的成本 -- 同時也為最敏感延遲的使用案例啟用了更高的峰值速度,這得益於深度 PyTorch 的整合與合作。
43
vLLM
12月8日 21:18
🎉恭喜 @Zai_org 團隊推出 GLM-4.6V 和 GLM-4.6V-Flash — 在 vLLM Recipes 中提供日零支援,適合希望在自己的 GPU 上運行的團隊。 GLM-4.6V 專注於高品質的多模態推理,具備長上下文和原生工具/函數調用,而 GLM-4.6V-Flash 是一個針對較低延遲和較小佔用的 9B 變體;我們的新 vLLM Recipe 提供即用型配置、多 GPU 指導和以生產為導向的預設。 如果您正在構建推理服務並希望在您的堆疊中使用 GLM-4.6V,請從這裡開始:
Z.ai
12月8日 20:14
GLM-4.6V 系列來了🚀 - GLM-4.6V (106B):旗艦視覺-語言模型,擁有 128K 上下文 - GLM-4.6V-Flash (9B):超快速、輕量級版本,適用於本地和低延遲工作負載 GLM 視覺模型系列首個原生函數調用 權重: 立即試用 GLM-4.6V: API: 技術部落格: API 價格(每 1M 代幣): - GLM-4.6V:$0.6 輸入 / $0.9 輸出 - GLM-4.6V-Flash:免費
218
熱門
排行
收藏