Modelli di Linguaggio che Pensano e Chattano Meglio Propone una semplice ricetta di RL per migliorare i piccoli modelli aperti (ad es., 8B) che competono con GPT-4o e Claude 3.7 Sonnet (pensiero). Fate attenzione a questo, sviluppatori di AI! Ecco le mie note: