Modele de limbaj care gândesc și discută mai bine Propune o rețetă RL simplă pentru a îmbunătăți modelele deschise mici (de exemplu, 8B) care rivalizează cu GPT-4o și Claude 3.7 Sonnet (gândire). Fiți atenți la acesta, dezvoltatori AI! Iată notele mele: