Wczoraj bawiłem się z Gemini 3 w ramach wczesnego dostępu. Kilka myśli - Po pierwsze, zazwyczaj zalecam ostrożność przy publicznych benchmarkach, ponieważ moim zdaniem można je dość łatwo zmanipulować. To sprowadza się do dyscypliny i samokontroli zespołu (który jest jednocześnie mocno zachęcany do czegoś innego), aby nie dopasowywać zestawów testowych poprzez skomplikowane gimnastyki nad danymi sąsiadującymi z zestawem testowym w przestrzeni osadzania dokumentów. Realistycznie, ponieważ wszyscy inni to robią, presja, aby to zrobić, jest wysoka. Porozmawiaj z modelem. Porozmawiaj z innymi modelami (Rider LLM Cycle - używaj innego LLM każdego dnia). Wczoraj miałem pozytywne pierwsze wrażenie, jeśli chodzi o osobowość, pisanie, kodowanie nastroju, humor itp., bardzo solidny potencjał na codziennego kierowcę, wyraźnie model LLM pierwszej klasy, gratulacje dla zespołu! W ciągu najbliższych dni/tygodni jestem najbardziej ciekawy i będę obserwować zespół nad prywatnymi ewaluacjami, które wiele osób/organizacji wydaje się teraz budować dla siebie i od czasu do czasu raportować tutaj.