Brinquei com o Gemini 3 ontem via acesso antecipado. Algumas reflexões - Primeiro, geralmente recomendo cautela com benchmarks públicos porque, na minha opinião, eles podem ser bastante manipuláveis. Tudo se resume à disciplina e autocontrole da equipe (que, entretanto, é fortemente incentivada a fazer o contrário) para não ajustar excessivamente os conjuntos de teste através de ginásticas elaboradas sobre dados adjacentes ao conjunto de teste no espaço de incorporação de documentos. Realisticamente, porque todos os outros estão fazendo isso, a pressão para fazê-lo é alta. Vá conversar com o modelo. Converse com os outros modelos (Aproveite o Ciclo LLM - use um LLM diferente a cada dia). Tive uma impressão positiva no início de ontem em relação à personalidade, escrita, codificação de vibrações, humor, etc., um potencial muito sólido para uso diário, claramente um LLM de nível 1, parabéns à equipe! Nos próximos dias/semanas, estou mais curioso e atento a um conjunto sobre avaliações privadas, que muitas pessoas/organizações agora parecem estar construindo para si mesmas e ocasionalmente relatam aqui.