Kielimallit, jotka ajattelevat ja keskustelevat paremmin Ehdottaa yksinkertaista RL-reseptiä pienten avoimien mallien (esim. 8B) parantamiseksi, joka kilpailee GPT-4o:n ja Claude 3.7 Sonnetin (ajattelu) kanssa. Kiinnittäkää huomiota tähän, tekoälykehittäjät! Tässä ovat muistiinpanoni: