Modelos de linguagem que pensam e conversam melhor Propõe uma receita RL simples para melhorar pequenos modelos abertos (por exemplo, 8B) que rivaliza com GPT-4o e Claude 3.7 Sonnet (pensamento). Prestem atenção a este, desenvolvedores de IA! Aqui estão minhas notas: