Skvělá práce @JamesTamplin posunout se nad rámec standardních hodnocení a posuzovat modely AI. Je překvapivé, že Gemini 2.5 Flash v této simulaci minecraftu vymřel.