Jazykové modely, které lépe přemýšlejí a chatují Navrhuje jednoduchý recept RL na vylepšení malých otevřených modelů (např. 8B), který konkuruje GPT-4o a Claude 3.7 Sonet (myšlení). Věnujte tomu pozornost, vývojáři umělé inteligence! Zde jsou mé poznámky: