Taalmodellen die beter denken en chatten Stelt een eenvoudig RL-recept voor om kleine open modellen (bijv. 8B) te verbeteren die concurreren met GPT-4o en Claude 3.7 Sonnet (denken). Let hierop, AI-ontwikkelaars! Hier zijn mijn aantekeningen: