vLLM levert nog meer inferentieprestaties met hetzelfde GPU-platform. In slechts 1 maand hebben we samengewerkt met NVIDIA om de maximale doorvoer per GPU van @nvidia Blackwell met tot 33% te verhogen -- wat de kosten per token aanzienlijk verlaagt -- terwijl we ook nog hogere pieksnelheden mogelijk maken voor de meest latentiegevoelige gebruiksscenario's, aangedreven door diepe PyTorch-integratie en samenwerking.