Tôi đã chơi với Gemini 3 hôm qua qua quyền truy cập sớm. Một vài suy nghĩ - Đầu tiên, tôi thường khuyên nên thận trọng với các chỉ số công khai vì theo ý kiến của tôi, chúng có thể dễ dàng bị thao túng. Nó phụ thuộc vào kỷ luật và sự tự kiềm chế của đội ngũ (người mà trong khi đó lại được khuyến khích mạnh mẽ theo cách khác) để không điều chỉnh quá mức các bộ dữ liệu thử nghiệm thông qua những thủ thuật phức tạp trên dữ liệu gần gũi với bộ dữ liệu thử nghiệm trong không gian nhúng tài liệu. Thực tế, vì mọi người khác đều đang làm như vậy, áp lực để làm điều đó là rất cao. Hãy nói chuyện với mô hình. Nói chuyện với các mô hình khác (Tham gia vào Chu kỳ LLM - sử dụng một LLM khác mỗi ngày). Tôi đã có ấn tượng tích cực ban đầu hôm qua về tính cách, viết lách, mã vibe, sự hài hước, v.v., tiềm năng rất vững chắc cho việc sử dụng hàng ngày, rõ ràng là một LLM hạng 1, chúc mừng đội ngũ! Trong vài ngày/t tuần tới, tôi rất tò mò và đang tìm kiếm một bộ hợp nhất qua các đánh giá riêng tư, mà nhiều người/tổ chức hiện nay dường như đang xây dựng cho chính họ và thỉnh thoảng báo cáo ở đây.