Sprachmodelle, die besser denken und chatten Schlägt ein einfaches RL-Rezept vor, um kleine offene Modelle (z. B. 8B) zu verbessern, die mit GPT-4o und Claude 3.7 Sonnet (Denken) konkurrieren. Achtet darauf, AI-Entwickler! Hier sind meine Notizen: