Pekerjaan hebat oleh @JamesTamplin untuk bergerak melampaui eval standar untuk menilai model AI. Mengejutkan melihat Gemini 2.5 Flash melenyapkan pada simulasi minecraft ini.