Großartige Arbeit von @JamesTamplin, um über Standardbewertungen hinauszugehen, um KI-Modelle zu beurteilen. Überraschend zu sehen, dass Gemini 2.5 Flash in dieser Minecraft-Simulation alles vernichtet.