O vLLM oferece ainda mais desempenho de inferência com a mesma plataforma de GPU. Em apenas 1 mês, trabalhamos com a NVIDIA para aumentar @nvidia throughput máximo por GPU da Blackwell em até 33% — reduzindo significativamente o custo por token — além de permitir velocidades de pico ainda maiores para os casos de uso mais sensíveis à latência, impulsionados por integração profunda e colaboração com o PyTorch.