Model Bahasa yang Berpikir dan Mengobrol dengan Lebih Baik Mengusulkan resep RL sederhana untuk meningkatkan model terbuka kecil (misalnya, 8B) yang menyaingi GPT-4o dan Claude 3.7 Sonnet (berpikir). Perhatikan yang satu ini, pengembang AI! Berikut adalah catatan saya: