vLLM ofrece un rendimiento de inferencia aún mayor con la misma plataforma GPU. En solo 1 mes, hemos trabajado con NVIDIA para aumentar el rendimiento máximo por GPU de @nvidia Blackwell en hasta un 33% -- reduciendo significativamente el costo por token -- mientras que también se habilita una velocidad máxima aún mayor para los casos de uso más sensibles a la latencia, impulsados por una profunda integración y colaboración con PyTorch.