Ich habe gestern über den frühen Zugang mit Gemini 3 gespielt. Einige Gedanken - Zuerst rate ich normalerweise zur Vorsicht bei öffentlichen Benchmarks, da sie meiner Meinung nach ziemlich manipulierbar sein können. Es kommt auf Disziplin und Selbstbeherrschung des Teams an (das gleichzeitig stark anders incentiviert ist), um Testsets nicht übermäßig anzupassen, indem sie aufwendige Gymnastik über testsetnahe Daten im Dokumenteinbettungsraum betreiben. Realistisch gesehen, da es alle anderen auch tun, ist der Druck, dies zu tun, hoch. Sprich mit dem Modell. Sprich mit den anderen Modellen (Ride the LLM Cycle - benutze jeden Tag ein anderes LLM). Ich hatte gestern einen positiven ersten Eindruck in Bezug auf Persönlichkeit, Schreiben, Vibe-Codierung, Humor usw., sehr solides Potenzial als täglicher Begleiter, eindeutig ein Tier-1-LLM, Glückwunsch an das Team! In den nächsten Tagen/Wochen bin ich am neugierigsten und halte Ausschau nach einem Ensemble über private Bewertungen, die viele Leute/Organisationen jetzt anscheinend für sich selbst aufbauen und gelegentlich hier darüber berichten.