Велика робота @JamesTamplin, щоб вийти за рамки стандартних евалів для оцінки моделей штучного інтелекту. Дивно бачити, що Gemini 2.5 Flash знищується в цій симуляції minecraft.