Modelos lingüísticos que piensan y chatean mejor Propone una receta simple de RL para mejorar los modelos abiertos pequeños (por ejemplo, 8B) que rivaliza con GPT-4o y Claude 3.7 Sonnet (pensamiento). ¡Prestad atención a esto, desarrolladores de IA! Aquí están mis notas: