Языковые модели, которые думают и общаются лучше Предлагает простой рецепт RL для улучшения небольших открытых моделей (например, 8B), которые соперничают с GPT-4o и Claude 3.7 Sonnet (мышление). Обратите внимание на это, разработчики ИИ! Вот мои заметки: