メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
インサイトハブ
エコシステム案内所
セキュリティ
開発者向け
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
ウォレット API
ウォレット API を発見する
API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
DAppでウォレットを連携する
Boost
X Launch
参加してトークンを獲得しよう
X キャンペーン
参加して報酬を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
色の好み
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
Türkçe
戻る
戻る
詳しく知る
サポートセンター
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
+0.45%
USELESS
-2.16%
IKUN
+3.25%
gib
-1.98%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
-1.69%
ALON
-1.36%
LAUNCHCOIN
+9.03%
GOONC
+1.06%
KLED
+5.28%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
-0.37%
Boopa
+1.23%
PORK
+2.15%
Profile
vLLM
vLLM
12月19日 00:45
スケーリングMoE推論はしばしば通信+KVキャッシュに縛られます。エキスパート並列性を押し出すと、デコードは集団や不均衡に支配され、プリフィルの遅れがEPグループ全体を停滞させることがあります。 マルチノードH200(Coreweave、Infiniband + ConnectX-7)におけるvLLMワイドEPの新しいコミュニティベンチマーク結果: - H200 GPUあたり持続約2.2kトークン/秒(以前の約1.5kトークン/秒から増加) この記事では、これを可能にする重要な要素を共有します。 - DeepSeekスタイルのMoE + MLA KV効率のためのワイドEP(「--enable-expert-parallel') - DeepEPオール・トゥ・オール、デュアルバッチオーバーラップ(DBO)、エキスパート並列負荷分散(EPLB) - LLM-d、NVIDIA Dynamo、Ray Serve LLMを介したプリフィル/デコードの分解および展開パス
29
vLLM
12月18日 08:29
vLLMは同じGPUプラットフォームでさらに高い推論性能を提供します。 わずか1か月で、私たちはNVIDIAと協力し、Blackwell@nvidia GPUあたり最大スループットを最大33%引き上げ、トークンごとのコストを大幅に削減しました。さらに、PyTorchの深い統合とコラボレーションによって、最もレイテンシに敏感なユースケースでさらに高いピーク速度を実現しました。
57
vLLM
12月8日 21:18
🎉GLM-4.6VおよびGLM-4.6Vフラッシュの@Zai_orgチームのリリース、おめでとうございます。vLLMレシピのサポートは、自社GPUで実行したいチーム向けに、デイ0からサポートが始まります。 GLM-4.6Vは高品質なマルチモーダル推論と長いコンテキストとネイティブのツール/関数呼び出しに焦点を当てており、GLM-4.6V-Flashは低遅延と小型のフットプリント展開に最適化された9Bバリアントです。新しいvLLM Recipeは、すぐに実行可能な設定、マルチGPU対応のガイダンス、そして本番環境を重視したデフォルトを提供できます。 推論サービスを構築し、GLM-4.6Vをスタックに加えたいなら、ここから始めてください:
Z.ai
12月8日 20:14
GLM-4.6Vシリーズが登場しました🚀 - GLM-4.6V(106B):128Kコンテキストを持つ旗艦ビジョン言語モデル - GLM-4.6Vフラッシュ(9B):ローカルかつ低遅延のワークロード向けに超高速軽量バージョン GLMビジョンモデルファミリーにおける初のネイティブ機能呼び出し 重み: 今すぐGLM-4.6Vを試してみてください: API: テックブログ: API価格(100万トークンあたり): - GLM-4.6V:入力$0.6 / 出力$0.9 - GLM-4.6Vフラッシュ:無料
233
トップ
ランキング
お気に入り