DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Joguei com Gemini 3 ontem via acesso antecipado. Algumas reflexões - Primeiro, geralmente recomendo cautela com benchmarks públicos porque, na minha opinião, eles podem ser bastante possíveis de jogar. Tudo se resume à disciplina e autocontrole da equipe (que, por sua vez, é fortemente incentivada de outra forma) para não ajustar demais os conjuntos de teste por meio de ginástica elaborada sobre dados adjacentes ao conjunto de testes no espaço de incorporação de documentos. Realisticamente, como todo mundo está fazendo isso, a pressão para fazer isso é grande. Vá falar com a modelo. Converse com os outros modelos (Ride the LLM Cycle - use um LLM diferente todo dia). Ontem tive uma impressão inicial positiva em personalidade, escrita, programação de vibe, humor, etc., potencial muito sólido para uso diário, claramente um LLM de nível 1, parabéns à equipe! Nos próximos dias/semanas, estou mais curioso e de olho por um conjunto em vez de avaliações privadas, que muitas pessoas/organizações agora parecem construir para si mesmas e ocasionalmente relatam aqui.

Melhores

Classificação

Favoritos