Modelos de Lenguaje que Piensan y Chatean Mejor Propone una receta simple de RL para mejorar modelos abiertos pequeños (por ejemplo, 8B) que rivalizan con GPT-4o y Claude 3.7 Sonnet (pensamiento). ¡Presten atención a esto, desarrolladores de IA! Aquí están mis notas: