Jag spelade Gemini 3 igår via early access. Några tankar – Först brukar jag uppmana till försiktighet med offentliga benchmarks eftersom jag tycker de är ganska möjliga att spela. Det handlar om disciplin och självbehärskning från teamet (som samtidigt starkt uppmuntras annars) att inte överanpassa testset genom avancerad gymnastik över testmängdsdata i dokumentinbäddningsutrymmet. Realistiskt sett, eftersom alla andra gör det, är pressen att göra det hög. Gå och prata med modellen. Prata med de andra modellerna (Åk LLM-cykeln – använd en ny LLM varje dag). Jag fick ett positivt tidigt intryck igår när det gäller personlighet, skrivande, vibe-kodning, humor osv., mycket stabil potential för daglig bil, tydligt en tier 1 LLM, grattis till teamet! Under de kommande dagarna/veckorna är jag mest nyfiken och letar efter en ensemble över privata utvärderingar, som många personer/organisationer nu verkar bygga upp för sig själva och ibland rapporterar om här.