昨日、アーリーアクセスでGemini 3をプレイしました。いくつかの感想です。 まず、公開ベンチマークは十分にゲーム化可能だと思うので注意を促します。結局のところ、チームの規律と自制心(一方でチームも強いインセンティブを受けている)が、ドキュメント埋め込み空間でテストセットに隣接するデータに過剰に適応させないようにすることに帰着します。現実的に言えば、他の誰もがやっているので、そのプレッシャーは大きいのです。 モデルに話しかけてきて。他のモデルにも相談してみてください(Ride the LLM Cycleで、毎日違うLLMを使う)。昨日は性格、文章、雰囲気のコーディング、ユーモアなど、初期の印象は良好で、非常に堅実なデイリードライバーの可能性があり、明らかにティア1のLLMです。チームの皆さん、おめでとうございます! これから数日から数週間、私はプライベート評価よりもアンサンブルを探すのが最も興味深く、今では多くの人や組織が自分たちで作り上げ、時折ここで報告しているように見えます。