Modele językowe, które myślą i rozmawiają lepiej Proponuje prosty przepis na RL, aby poprawić małe otwarte modele (np. 8B), które rywalizują z GPT-4o i Claude 3.7 Sonnet (myślenie). Zwróćcie na to uwagę, deweloperzy AI! Oto moje notatki: