我昨天透過早期訪問使用了 Gemini 3。幾個想法 - 首先,我通常會對公共基準保持謹慎,因為在我看來,它們很可能被操控。這取決於團隊的紀律和自我克制(同時他們的激勵措施強烈相反),以避免通過對測試集相鄰數據的複雜操作來過度擬合測試集。實際上,因為其他人都在這樣做,這種壓力是很大的。 去和模型對話。和其他模型對話(騎上 LLM 循環 - 每天使用不同的 LLM)。我昨天對個性、寫作、氛圍編碼、幽默等方面有了積極的早期印象,顯示出非常穩定的日常使用潛力,顯然是一個一級 LLM,恭喜團隊! 在接下來的幾天/幾週裡,我最感興趣並在尋找一個針對私人評估的集成,現在很多人/組織似乎都在為自己構建這個,並偶爾在這裡報告。