分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Bonk Eco continues to show strength amid $USELESS rally

Hosico+0.45%

USELESS-2.16%

IKUN+3.25%

gib-1.98%

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

スケーリングMoE推論はしばしば通信+KVキャッシュに縛られます。エキスパート並列性を押し出すと、デコードは集団や不均衡に支配され、プリフィルの遅れがEPグループ全体を停滞させることがあります。マルチノードH200(Coreweave、Infiniband + ConnectX-7)におけるvLLMワイドEPの新しいコミュニティベンチマーク結果: - H200 GPUあたり持続約2.2kトークン/秒(以前の約1.5kトークン/秒から増加) この記事では、これを可能にする重要な要素を共有します。 - DeepSeekスタイルのMoE + MLA KV効率のためのワイドEP(「--enable-expert-parallel') - DeepEPオール・トゥ・オール、デュアルバッチオーバーラップ(DBO)、エキスパート並列負荷分散(EPLB) - LLM-d、NVIDIA Dynamo、Ray Serve LLMを介したプリフィル/デコードの分解および展開パス

vLLM12月18日 08:29

vLLMは同じGPUプラットフォームでさらに高い推論性能を提供します。わずか1か月で、私たちはNVIDIAと協力し、Blackwell@nvidia GPUあたり最大スループットを最大33%引き上げ、トークンごとのコストを大幅に削減しました。さらに、PyTorchの深い統合とコラボレーションによって、最もレイテンシに敏感なユースケースでさらに高いピーク速度を実現しました。

vLLM12月8日 21:18

🎉GLM-4.6VおよびGLM-4.6Vフラッシュの@Zai_orgチームのリリース、おめでとうございます。vLLMレシピのサポートは、自社GPUで実行したいチーム向けに、デイ0からサポートが始まります。 GLM-4.6Vは高品質なマルチモーダル推論と長いコンテキストとネイティブのツール/関数呼び出しに焦点を当てており、GLM-4.6V-Flashは低遅延と小型のフットプリント展開に最適化された9Bバリアントです。新しいvLLM Recipeは、すぐに実行可能な設定、マルチGPU対応のガイダンス、そして本番環境を重視したデフォルトを提供できます。推論サービスを構築し、GLM-4.6Vをスタックに加えたいなら、ここから始めてください:

Z.ai12月8日 20:14

GLM-4.6Vシリーズが登場しました🚀 - GLM-4.6V(106B):128Kコンテキストを持つ旗艦ビジョン言語モデル - GLM-4.6Vフラッシュ(9B):ローカルかつ低遅延のワークロード向けに超高速軽量バージョン GLMビジョンモデルファミリーにおける初のネイティブ機能呼び出し重み：今すぐGLM-4.6Vを試してみてください: API: テックブログ: API価格(100万トークンあたり): - GLM-4.6V:入力$0.6 / 出力$0.9 - GLM-4.6Vフラッシュ:無料

233

トップ

ランキング

お気に入り