Mô hình ngôn ngữ suy nghĩ và trò chuyện tốt hơn Đề xuất một công thức RL đơn giản để cải thiện các mô hình mở nhỏ (ví dụ, 8B) có thể cạnh tranh với GPT-4o và Claude 3.7 Sonnet (suy nghĩ). Hãy chú ý đến điều này, các nhà phát triển AI! Dưới đây là ghi chú của tôi: