Modèles de langage qui pensent et discutent mieux Propose une recette RL simple pour améliorer les petits modèles ouverts (par exemple, 8B) qui rivalisent avec GPT-4o et Claude 3.7 Sonnet (pensée). Faites attention à celui-ci, développeurs d'IA ! Voici mes notes :