よりよく考え、チャットする言語モデル GPT-4oやClaude 3.7 Sonnet(thinking)に匹敵する小さなオープンモデル(例:8B)を改善するための簡単なRLレシピを提案します。 AI 開発者の皆さん、これに注目してください! 私のメモは次のとおりです。