能思考和聊天更好的語言模型 提出了一個簡單的強化學習配方,以改善小型開放模型(例如,8B),與GPT-4o和Claude 3.7 Sonnet(思考)相媲美。 AI開發者們,請注意這一點! 以下是我的筆記: