Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Parabéns à @Alibaba_Qwen pelo lançamento do Qwen-Image-2512! 🎉
Estamos muito felizes em anunciar suporte para o Day-0 no vLLM-Omni. Agora você pode servir esse modelo de imagem open-source SOTA com nossa arquitetura pipeline otimizada imediatamente.
Leia mais:
👇 Veja a execução abaixo:



Qwen31 de dez. de 2025
🎁 Um presente de Ano Novo da Qwen — Qwen-Image-2512 chegou.
🚀 Nosso upgrade de dezembro para Qwen-Image, bem a tempo para o Ano Novo.
✨ Novidades:
• Humanos mais realistas — "aparência de IA" drasticamente reduzida, detalhes faciais mais intensos
• Texturas naturais mais refinadas — paisagens mais nítidas, água, pelos e materiais
• Renderização de texto mais forte — melhor layout, maior precisão na composição texto–imagem
🏆 Testado em 10.000+ disparos cegos no AI Arena, o Qwen-Image-2512 é o modelo de imagem open-source mais forte, mantendo-se competitivo com sistemas de código fechado.
👉 Experimente agora no chat do Qwen:
🤗 Rosto de abraço:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Demonstração de Abraços no Rosto:
📦 Demonstração do ModelScope:
✨API:
🎆 Comece o Ano Novo com imagens melhores.
69
Inferência MoE escalável geralmente é comunicação + bounding KV-cache: uma vez que você empurra o paralelismo de especialistas, a decodificação pode ser dominada por coletivos e desequilíbrio, e os retardatários do prefill podem travar um grupo inteiro de EP.
Novos resultados de benchmarks comunitários para vLLM wide-EP em múltiplos nós H200 (Coreweave, Infiniband + ConnectX-7):
- Sustentado ~2,2k tokens/s por GPU H200 (aumento em relação a ~1,5k tokens/s por GPU anteriormente)
No post, compartilhamos as principais partes que possibilitam isso:
- Wide-EP ('--enable-expert-parallel') para eficiência de MoE no estilo DeepSeek + MLA KV
- DeepEP all-to-all, Dual-batch Overlap (DBO) e Expert Parallel Load Balancing (EPLB)
- Caminhos de prepreenchimento/decodificação e implantação via llm-d, NVIDIA Dynamo e Ray Serve LLM
252
O vLLM oferece ainda mais desempenho de inferência com a mesma plataforma de GPU.
Em apenas 1 mês, trabalhamos com a NVIDIA para aumentar @nvidia throughput máximo por GPU da Blackwell em até 33% — reduzindo significativamente o custo por token — além de permitir velocidades de pico ainda maiores para os casos de uso mais sensíveis à latência, impulsionados por integração profunda e colaboração com o PyTorch.

283
Melhores
Classificação
Favoritos
