Modelos de Linguagem que Pensam e Conversam Melhor Propõe uma receita simples de RL para melhorar pequenos modelos abertos (por exemplo, 8B) que rivalizam com o GPT-4o e o Claude 3.7 Sonnet (pensamento). Prestem atenção a este, desenvolvedores de IA! Aqui estão minhas notas: