vLLM mang lại hiệu suất suy diễn cao hơn nữa với cùng một nền tảng GPU. Chỉ trong 1 tháng, chúng tôi đã làm việc với NVIDIA để tăng thông lượng tối đa của @nvidia Blackwell trên mỗi GPU lên tới 33% -- giảm đáng kể chi phí trên mỗi token -- đồng thời cho phép tốc độ đỉnh cao hơn nữa cho các trường hợp sử dụng nhạy cảm với độ trễ nhất, được hỗ trợ bởi sự tích hợp sâu với PyTorch và sự hợp tác.