DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

J'ai joué avec Gemini 3 hier via l'accès anticipé. Quelques réflexions - Tout d'abord, j'encourage généralement la prudence avec les benchmarks publics car, à mon avis, ils peuvent être assez facilement manipulés. Cela dépend de la discipline et de la maîtrise de soi de l'équipe (qui est par ailleurs fortement incitée à faire le contraire) pour ne pas surajuster les ensembles de test via des gymnastiques élaborées sur des données adjacentes à l'ensemble de test dans l'espace d'incorporation de documents. Réaliste, parce que tout le monde le fait, la pression pour le faire est forte. Allez parler au modèle. Parlez aux autres modèles (Faites le cycle LLM - utilisez un LLM différent chaque jour). J'ai eu une impression positive hier en termes de personnalité, d'écriture, de codage de l'ambiance, d'humour, etc., un potentiel de conducteur quotidien très solide, clairement un LLM de niveau 1, félicitations à l'équipe ! Au cours des prochains jours/semaines, je suis le plus curieux et à l'affût d'un ensemble sur des évaluations privées, que beaucoup de personnes/organisations semblent maintenant construire pour elles-mêmes et en rapportent occasionnellement ici.

Meilleurs

Classement

Favoris